摘要

熟练员工脑海中独有的"工作诀窍"(隐性知识),由AI从屏幕操作、录屏视频以及持续收集的作业日志中提炼出来,并自动转写为标准作业程序书(SOP)。更进一步,AI智能体(Agent)自身读取这份程序书,直接操作公司内部系统以完成业务。由Screen-to-SOP、Video-to-SOP、Passive Capture、Agentic SOP这四个层级构成的这一全新技术栈,正在2026年上半年迅速崛起。本文面向初学者梳理这四个领域的代表性产品,并在此基础上综合解读硅谷顶级风投(VC)如何解读这一趋势、又如何为其配置资金。

四个领域勾勒出的SOP生成流程全貌

截至2026年5月,围绕业务操作手册(SOP,Standard Operating Procedure)的AI市场,已逐渐被理解为由四个层级相互衔接而成的「流水线」。位于最下游的是 Screen-to-SOP,它通过逐一观察熟练员工日常完成的屏幕操作,当场输出分步骤的操作手册。其次是 Video-to-SOP,它对过去积累的录制视频或Zoom会议进行事后分析,并转写为文本SOP。再往上游则是 Passive Capture,它在用户毫无意识地进行作业期间也持续吸收周边数据,从邮件正文、支持工单、Slack对话、文件编辑历史等「不会写入正式手册」的原始业务记录中构建知识图谱。而最后的 Agentic SOP,则是由AI智能体直接「读取并执行」这些被抽取出来的操作手册的层级。

这四个层级并非竞争关系,而毋宁说是互补关系。Screen-to-SOP 和 Video-to-SOP 都以明确的「录制」操作为起点来生成手册,但 Passive Capture 是一种即便员工不按下录制按钮信息也会不断积累的机制,其知识总量在数量级上要大得多。而 Agentic SOP 则是消费这三个层级所生成的「机器可读业务描述」的一方。正如 Sequoia Capital 的合伙人 Sonya Huang 和 Pat Grady 在2026年4月的 AI Ascent 2026 主题演讲中反复强调的那样,这一系列流程象征着从「软件仅仅进行描述」的时代,向「软件将完成的工作作为成果物交付的时代」的转变。他们将这一市场称为「Services-as-a-Software」,并主张全球服务市场(估计10万亿美元,约合1,550万亿日元)将作为传统软件市场(每年6,000亿美元前后,约合93万亿日元)十倍以上的TAM(潜在市场规模)向AI智能体企业开放。

以下,将通过具体的产品和使用场景,深入剖析这四个领域各自的内容。


Screen-to-SOP — 从实时捕捉屏幕操作到自动生成操作手册

Screen-to-SOP是历史最为悠久、且已取得巨大商业成功的品类。使用者只需像往常一样操作业务系统,浏览器扩展或常驻桌面应用便会逐一记录点击、滚动和文本输入,在按下结束按钮的瞬间,便会生成附带截图的操作手册。这样说也许更易于想象:财务人员只需逐步操作完成开具发票的30个步骤,系统就会自动生成《发票开具手册ver.2026-05》。

这一领域事实上的行业领导者,是位于旧金山的Scribe。该公司于2025年11月10日,在由StepStone Group领投的C轮融资中募集了7,500万美元(约116亿日元),投后估值达到13亿美元(约2,015亿日元)。现有投资方Amplify PartnersRedpoint VenturesTiger Global、Morado Ventures、New York Life Ventures也进行了追加投资。据TechCrunch 2025年11月10日的报道,Scribe在累计融资额达到约1.5亿美元(约233亿日元)之际,发布了新产品"Scribe Optimize"。Optimize不止步于单纯的手册生成,而是在云端持续挖掘员工的业务动线,将业务的重复、返工以及自动化候选的热点可视化。如果说该公司原有产品(现已重新命名为"Scribe Capture")是"制作单个操作手册"的产品,那么Optimize则是"描绘整个组织的业务地图并提出改进方案"的产品,Scribe正试图从估值超10亿美元的SOP工具,蜕变为规模更大的流程智能平台,这一动向十分鲜明。Scribe目前仅支持浏览器系的SaaS应用,但已在路线图中明确表示将扩展至大型机及功能键系的遗留应用。

作为仅次于Scribe而广为人知的存在,是Tango,该公司总部同样位于旧金山。Tango成立于2020年,于2021年8月完成由Wing VC领投的种子轮融资570万美元(约8.8亿日元),2022年6月在由Tiger Global领投的A轮融资中募集1,400万美元(约22亿日元),累计募集约1,970万美元(约30.5亿日元)。其特点是聚集了General Catalyst、Slack Fund、Atlassian Ventures、GSV Ventures等战略色彩浓厚的风投机构,据PitchBook和Crunchbase的数据,截至2026年5月,其用户仍达25,000个团队。Tango的差异化亮点在于,可通过"Guide Me"模式将生成的手册重新叠加到实际运行的业务画面上,新人按照指引操作时,实时的实操指南便会随之推进。相对于Scribe在"静态知识库的构建"方面具有优势,Tango更偏向于"现场即时引导(Digital Adoption)",两家公司事实上形成了双强格局。

在这一细分领域,长期面向企业市场的既有势力也在谋求反攻。总部位于印度及旧金山的Whatfix在2024年9月的E轮融资中募集了1.25亿美元(约194亿日元),累计募集额超过1.39亿美元(约215亿日元)。他们在2026年推出了名为"Authoring Agent""Guidance Agent""Insights Agent"的智能体群,转向了智能体型DAP(Digital Adoption Platform,数字化采纳平台)——在直接叠加于业务系统操作画面的UI上,由AI自动持续改写指南。另一方面,长年作为Whatfix竞争对手的美国WalkMe,自2024年被SAP以约15亿美元(约2,325亿日元)收购以来,便转向了SAP生态系统的优化,作为独立的"Screen-to-SOP"参与者,其存在感正在减弱。

具有代表性的使用场景包括:(1)伴随ERP或CRM版本升级而进行的手册全面改写,使用Scribe可将以往需要一周的工作在半天内完成;(2)呼叫中心新人培训中,Tango通过叠加在画面上的指南,使"以往需要2周的培训缩短为3天";(3)在医疗事务或政务窗口等每逢人事调动就必须重置作业流程的工作场所,Whatfix可通过智能体瞬时重组"各现场定制的操作手册"等现场。


Video-to-SOP — 将现有录制视频转写为作业操作手册

Video-to-SOP乍看与Screen-to-SOP相似,但有一个决定性的不同点。它不需要为制作操作手册而进行新的录制,也就是说,它是一种从"已经拍好"的视频资产中抢救知识的机制。培训视频、用Zoom录制的内部会议、放在YouTube上无人问津的面向SME(中小企业)的教程——这类视频内容在过去十年间爆发式增长,但与此同时检索性极差,作为知识几乎处于"沉睡封存"的状态。随着多模态LLM的实用化,读取画面中显示的文字和UI元素、并与旁白对照后输出结构化操作手册成为可能,因此对这些沉睡知识的抢救正一举推进。

在这一品类中,2026年最受关注的融资来自在特拉维夫和旧金山设有办公室的Guidde。Guidde于2026年2月25日宣布,完成了由美国PSG Equity领投的5,000万美元(约77亿日元)B轮融资。据CTech报道,本轮融资的参与方包括任务管理SaaS厂商monday.com、现有投资方Norwest、Entrée Capital、Qualcomm Ventures以及Inkberry Ventures。Guidde平台的特点在于,员工只需照常完成日常工作,AI便会同时解析屏幕录像与旁白,自动生成带字幕的讲解视频和文字版SOP两种成果。该公司公布,截至2026年初已拥有Anheuser-Busch、Bayer、Nasdaq、Yahoo、SentinelOne等4,500多家客户,年营收连续三年实现三倍增长,客户留存率超过90%。此次融资据称将用于扩大与KPMG、Deloitte等全球会计师事务所的实施合作伙伴关系,由此可以看出其意图深度切入日美欧大型企业IT转型项目的战略。

除Guidde之外,专营Video-to-SOP的厂商也接连涌现。印度系的Trupeer专注于从录制视频同时生成"精修过的讲解视频"和"文字版SOP",其凭借品牌定制模板呈现的精美统一的输出成果而获得好评。Clueso在自动缩放、降噪、脚本清理等制作后处理的AI化方面具有优势;Vidocu则是只需上传一段视频即可一并输出字幕、配音(65种以上语言)、附带截图的文章和剪辑完成的视频的"一源多输出"型产品。此外,Docsie的Video-to-SOP强调通过图像识别视频中的文字和UI元素,并与旁白对照,从语义层面解读"为了什么目的而点击了什么"。

Loom过去作为"个人屏幕录制工具"起步,但自2023年Atlassian以9.75亿美元(约1,510亿日元)收购以来,已深度整合进Atlassian的知识生态系统。截至2026年的Loom AI不仅能从录像中自动生成标题、摘要、章节和行动事项,还作为模板配备了SOP、分步指南、QA步骤、PR说明、代码说明书这五种类型,并可将生成成果一键发送至Jira工单或Confluence页面。面向企业的价格档位还包含全局管理员视图以及Confluence/Jira原生集成,此前一直把Loom视为单纯的消息视频工具的组织,如今开始重新将其采用为内部SOP的主要基础平台。

具有代表性的应用场景包括以下几类项目:(1)将制药企业的GxP验证视频群一并转写为结构化SOP,压缩应对监管机构审计的工时;(2)由总部的质量管理部门用Video-to-SOP将制造业熟练工人用智能眼镜拍摄的"现场流程视频"标准化;(3)咨询公司将过去的客户研讨会录像转化为体系化的方法论库。Guidde与大型会计师事务所合作,正是因为这第三种用例对KPMG和Deloitte自身的知识产权业务而言极具吸引力。


Passive Capture — 在后台吸纳隐性知识

与Screen-to-SOP和Video-to-SOP相比,Passive Capture怀有更具哲学性的雄心。其理念是:在员工完全不进行"按下录制按钮""上传视频"等有意识操作的情况下,持续采集邮件、Slack、Teams、支持工单、CRM评论、文件编辑、会议录音等各类业务事件,从而打造覆盖整个组织的"隐性知识母舰"。正如California Management Review于2026年3月刊载的《Tacit Knowledge Is Your Next Competitive Moat》所指出的,在智能体时代,竞争优势已不再是数据或模型,而是正在转向嵌入员工判断之中的隐性知识。

在这一类别中,2026年最受关注的融资当属总部位于慕尼黑的Interloom。正如Fortune于2026年3月23日独家报道的那样,Interloom确保获得了1,650万美元(约合26亿日元)的种子轮融资。领投方为DN Capital,参投方包括Bek Ventures和Air Street Capital。该公司已于2024年3月完成300万美元(约合4.6亿日元)的种子前轮融资,由此累计融资额达到约2,000万美元(约合31亿日元)。Interloom的产品以数百万件为单位采集支持邮件、服务工单、呼叫中心文字记录、工单(work order)等"业务中自然产生的记录",并如同Google Maps从交通流量中学习最短路线一样,持续更新"问题在现场是如何被解决的"这一情境图谱(context graph)。该公司已在德国最大型银行之一Commerzbank将书面化手册与现场实际运营知识之间的差距从约50%缩小至5%,并在Volkswagen用于支持工单的一线响应自动化、在Zurich Insurance用于承保业务(underwriting)的自动化,均已实现正式投产采用。

在美国一侧瞄准与之相近定位的,是由斯坦福的Eric Brynjolfsson等人创立的Workhelix。该公司在2025年2月的A轮融资中由AIX Ventures领投,融资1,500万美元(约合23亿日元)。Andrew Ng的 AI FundAccenture Ventures、Bloomberg Beta,以及作为天使投资人的LinkedIn联合创始人Reid Hoffman、OpenAI联合创始人兼现任Thinking Machines Lab CEO的Mira Murati、Google DeepMind的Jeff Dean均榜上有名。Workhelix的做法是将企业业务分解为超过25万件的任务级别单元,并就每一项对"是否可由AI替代""若替代可期待多大程度的生产率提升"进行打分。实际上,这是一种将"通过Passive Capture变得可观察的业务对象"转化为AI应用路线图的服务。Accenture、Wayfair、Coursera等客户在早期便已榜上有名。

象征着借助硬件实现Passive Capture的,是由曾经的Rewind AI更名而来的Limitless。CEO Dan Siroker作为Optimizely创始人而广为人知,是一位连续创业者,该公司已从a16z累计融资超过3,300万美元(约合51亿日元)。该公司此前以两条产品线展开:一是持续录制Mac桌面的画面与音频并作为可检索记忆调用的"Rewind"应用,二是挂在脖子上、售价99美元(约合1.5万日元)的吊坠型硬件"Limitless吊坠"。但据CNBC、TechCrunch、SF Standard于2025年12月5日的报道,当日Meta宣布了收购(收购金额未公开)。Meta宣布将停止吊坠业务,桌面应用"Rewind"也将自2025年12月19日起全面停止画面与音频录制功能。这被视为一个具有象征意义的动向:将持续录音这一最为尖锐的Passive Capture,不是由独立创业公司、而是由Big Tech纳入自身体系之内。

在作为知识检索的延伸而提供Passive Capture的类别中,Glean实现了估值的压倒性飞跃。该公司于2026年1月宣布完成由Altimeter和DST Global领投的2.6亿美元(约合403亿日元)E轮融资,估值达46亿美元(约合7,130亿日元)。此后约9个月,在2026年内由Wellington Management领投的F轮融资中又追加募集1.5亿美元(约合233亿日元),估值一举跃升至72亿美元(约合1.1万亿日元)。Glean的原点是企业检索:自动为散落在SaaS与数据库中的业务信息建立索引,员工只需说一句"那个项目的那份文档",便能即刻调取相应内容。而TechCrunch介绍称,2026年该公司正志在成为"在应用程序背后运行的统一层"。Otter.ai同样起步于会议记录的文字转写,并于2025年3月年度经常性收入(ARR)突破1亿美元(约合155亿日元)。2026年4月28日,它发布了名为Conversational Knowledge Engine的新平台,迈出了将会议发言本身实时编织进企业知识基础的一步。源自瑞典的Sana在2024年10月由NEA领投的5,500万美元(约合85亿日元)融资中将估值推至5亿美元(约合775亿日元)后,于2025年11月4日被Workday收购,并在这家人事云大厂内部以知识AI的身份重新上线。

典型的应用场景包括:(1)在客户服务中,那些动辄忘记"过去我们团队是如何处理类似案件的"的组织,可通过Interloom将隐性的解决流程可视化;(2)制造业或金融业因资深员工退休而面临的"经验大量流失"风险,可由Workhelix或Synaply的知识图谱加以补足;(3)销售组织可经由Glean/Otter,将"那位顶尖销售究竟以怎样的步骤拿下大型案件"转化为可复现的实战手册。需要指出的是,Passive Capture始终伴随着"员工对持续监控的心理抵触感"以及"触碰录音相关法规的风险"。Meta在收购Limitless后立即终止其面向大众的销售,也被解读为作为巨型企业吸收这一社会摩擦成本的判断。


Agentic SOP — 从操作手册到自主执行代理

Agentic SOP是上述三层所生成的业务描述不再"由人类阅读"、而是"由AI智能体直接阅读并执行"的一层。正如红杉资本(Sequoia Capital)在2026年1月的论述《2026: This is AGI》中所指出的,他们将这一市场定义为生成式AI从"描绘的AI"向"达成的AI"的演进,并认为能够贯彻完成长周期任务的Long-Horizon Agent(长程智能体)才是其中的主角。事实上,2026年募集到最庞大资金的,正是那些自主执行业务流程的智能体企业群。

作为标志性案例,可以举出由Bret Taylor领军的Sierra。正如TechCrunch与CNBC在2026年5月4日同步报道的那样,Sierra完成了由Tiger Global与Google旗下GV共同领投的9.5亿美元(约1,470亿日元)融资轮,投后估值达到158亿美元(约2.4万亿日元。此为Tech Startups的数字。部分媒体进位显示为"超150亿美元")。相比一年半前45亿美元(约7,000亿日元)的估值,大约翻了三倍以上。Sierra同时还公布,其累计融资额已突破10亿美元(约1,550亿日元)。AI的"客户体验智能体"已超越最初设想的订单查询、密码重置范畴,开始承担房贷发放、保险理赔、订阅管理、医疗收入周期管理等繁重业务,并以《财富》50强中超过40%的企业为客户。据称其ARR已达到1.5亿美元(约233亿日元)。

与Sierra并驾齐驱的,是位于旧金山的Decagon。据TechCrunch报道,该公司于2026年1月28日完成了由Coatue Management与Index Ventures共同领投的2.5亿美元(约388亿日元)D轮融资,估值达到45亿美元(约7,000亿日元)。自创立以来的累计融资超过2.31亿美元(约358亿日元),Andreessen HorowitzAccel等也持续提供支持。Decagon的技术关键词是"Agent Operating Procedures(AOP)"。据该公司说明,AOP是一种能够同时编写自然语言业务规则描述与代码级护栏的"可编译SOP",其结构使得非工程师也能即时变更业务逻辑,同时工程师又能通过可验证的测试框架防止失误。Decagon的客户中包括Notion、Duolingo、Substack、Bilt、Rippling、ClassPass等B2C/B2B SaaS企业。该公司宣称"SOP不再是供人阅读的文档,而是转变为由机器解释的逻辑集合",这一姿态表明Agentic SOP这一概念绝非单纯的流行语,而是实现层面上的核心设计思想。

在企业呼叫中心实时AI领域处于领先地位的Cresta,于2024年11月完成了由World Innovation Lab(WiL)与卡塔尔投资局(Qatar Investment Authority)领投的1.25亿美元(约194亿日元)D轮融资,累计募资已超过2.7亿美元(约419亿日元)。它采用一种混合模式:通过实时对话AI在人工坐席耳边低声给出建议,同时也可切换为全自动应答。在合规领域,纽约的Norm Ai是颇具特色的存在。该公司于2025年3月公布了4,800万美元(约74亿日元)的B轮融资(累计1.47亿美元=约228亿日元),2026年2月19日又宣布其基础智能体将被集成进Microsoft Foundry,Coatue、Blackstone也位列其支持者之中。Norm Ai将法律法规文本导入并转换为"可执行的合规SOP AI智能体"的理念,是Agentic SOP之中尤其面向受监管行业的典型代表。

打着"自主软件工程师"旗号实现大型化的是Cognition AI。正如Bloomberg与SiliconANGLE在2026年4月23日所报道的,据称该公司正在以250亿美元(约3.9万亿日元)的估值商讨数亿美元规模的融资轮。由于上一轮融资在2025年9月时估值为102亿美元(约1.6万亿日元),换算下来估值在半年多的时间里膨胀了2.5倍。该公司公布,其Devin在Goldman Sachs、Citi、Dell、Cisco、Ramp、Palantir、Nubank、Mercado Libre等客户处创造了7,300万美元(约113亿日元)规模的ARR(为收购Windsurf之前的时间点),作为自主执行工程师"SOP式任务"的智能体已进入实证阶段。

而围绕"作为OS支撑"这些垂直智能体群的角色,OpenAI与Anthropic开辟了新的战线。OpenAI于2025年10月21日推出了名为"ChatGPT Atlas"的独立浏览器产品,并面向Plus、Pro、Business用户提供智能体模式。Atlas以"ChatGPT不是坐在URL栏的背后,而是坐在URL栏的上方"为构想进行设计,其构建方式使智能体能够结合屏幕的上下文、标签页的状态来完成业务。Anthropic则于2026年3月23日将此前一直处于研究预览阶段的"计算机使用"功能产品化,推出"Claude Cowork"并向付费订阅用户开放;根据CNBC在2026年3月24日的报道,该产品于4月9日以支持Mac/Windows的形式正式公开发布(GA)。企业版具备基于角色的访问控制、群组支出上限、Zoom MCP连接器等功能。随着法国Mistral、美国OpenAI、美国Anthropic纷纷加入"计算机使用智能体"的精度竞争,Agentic SOP的"执行层"一举走向商品化的可能性正在升高。

就使用场景而言,呈现出这样一种清晰的趋势:(1)SaaS的客户成功团队将"对存在解约顾虑的客户进行自动跟进"全权交给Sierra或Decagon的智能体,从而提高挽留率;(2)大型银行通过Norm Ai的监管智能体自动执行整个KYC流程,将人工审核降至最低;(3)全球制造业的IT部门经由Cresta自动回复现场服务咨询——此前那些"由人手持SOP操作屏幕"的业务,正越来越明显地在智能体内部得以闭环完成。


硅谷主要风投的看法 ——「从软件到服务」的地壳变动

当我们把从Screen-to-SOP到Agentic SOP的四个层级作为一个整体来看待时,硅谷顶级风投机构共同谈及的是这样一个宏观论点:AI市场的中心正从"软件本身"转移到"软件所完成的工作"。在Sequoia Capital于2026年4月20日在旧金山举办的AI Ascent 2026上,Pat Grady、Sonya Huang、Konstantine Buhler以"2026 is AGI"为旗帜。他们断言"用100天执行100年的进步",并将AI服务可承接的市场规模估算为10万亿美元(约1,550万亿日元)。这大约是传统"软件市场约6,000亿美元"的十几倍。Sequoia将作为"直接替代人工服务的劳动力"的智能体设定为长期主题,这一举动意义重大;而他们向RogoAI(金融智能体)投入7,500万美元(约116亿日元)的C轮融资、并持续参与Sierra大型融资轮的事实,则直观地展示了其执行力。

Andreessen Horowitz(a16z)在2026年初的Big Ideas 2026系列中,将"Enterprise Orchestration Layer"和"Agentic Interface"定位为年度最重要主题。他们的一系列备忘录更为具体,分析认为:"AI将脱离聊天UI,成为主动行动的存在""界面将从面向人类重新设计为面向智能体""业务流量将从人类速度转向'智能体速度',单一目标会衍生出数千次并发API调用"。a16z向Decagon投入C轮融资、从早期就参与Sierra、并持续支持Cresta,这些举动正是纵向把控Agentic SOP技术栈的投资策略的典型。a16z在2026年4月发布的《State of AI: An Empirical 100 Trillion Token Study》中显示,经由OpenRouter的API流量中增长最快的消费形态是"智能体式推理"(一次指令即可长时间持续运行的工作负载),这也印证了Agentic SOP的现实算力需求。

Bessemer Venture Partners凭借运营Cloud 100长达十年的经验公布称,"AI初创企业达到1亿美元ARR的平均时长,已从传统云企业的7.5年缩短至5.7年"。截至2025年8月,Cloud 100整体的总估值首次突破1万亿美元(约155万亿日元)。Bessemer将"Securing AI Agents(AI智能体的安全)"列为2026年的重点课题,强调这样一种视角:Agentic SOP的普及将同时催生出安全与治理领域这一巨大的未开拓市场。

Lightspeed Venture Partners于2025年12月发布了总额超过90亿美元(约1.4万亿日元)的新基金,并明确表示意图将其大部分投向AI智能体领域。他们以4,500万美元(约70亿日元)的B轮融资参与了面向Financial Advisor的AI助手Zocks,采取了将Agentic SOP作为"行业垂直型智能体"来攻占的战略。

Tiger Global、Coatue、Index Ventures、Insight Partners等跨界型基金的一个显著特点是,它们既向Screen-to-SOP的老牌企业(Tango、Scribe、Bardeen)注资,也向Agentic SOP的新兴企业(Sierra、Decagon)注资。这正是它们看到了"现场所生成的SOP数量"与"智能体所消费的SOP数量"双方同时扩张这一结构性顺风的佐证。

在VC之间存在温度差的主题中,经常被提及的是伴随Passive Capture而来的隐私担忧以及劳资关系风险。在Sequoia的评论和a16z的播客中,一方面积极描绘"常态化记录习以为常的社会",另一方面也反复出现这样一种向企业方提出忠告的论调:"Capture Layer应当附加在既有工作流之上,绝不应强迫员工接受另一套全新的工作流"。事实上,Limitless停止面向消费者的硬件业务并被Meta吸收的来龙去脉,在VC界被多次引用,作为"独立初创企业无法完全吸收社会性摩擦"的警钟。


主流媒体的报道基调与数字波动

主流媒体的报道基调,在这四个层级上也有着明显的区分。Screen-to-SOP和Video-to-SOP被视为"已进入实用阶段、虽不起眼但利润率较高的领域",被TechCrunch、VentureBeat、CTech的科技专栏以及Bloomberg的企业版块以平实的笔调加以报道。例如,TechCrunch在2025年11月10日刊登的Scribe相关报道评论称"Scribe终于开始展示出AI在一线现场创造收益的场景",并从营收倍数的角度论证了13亿美元(约2,015亿日元)估值的合理性。Calcalistic对Guidde的报道则以"弥合AI与员工之间的鸿沟"这一关键短语,强调了这家源自以色列的初创企业成长至5,000万美元(约77亿日元)规模这一点,地域性的语境呈现颇为到位。

与此相对,Agentic SOP则倾向于被作为"旧金山AI热潮的最前沿",由CNBC、Bloomberg、WSJ、TechCrunch以颇为夸张的估值表述加以报道。Sierra的9.5亿美元融资,正如CNBC所写的"Bret Taylor's Sierra raises nearly $1B"、TechCrunch所写的"the race to own enterprise AI gets serious"、Bloomberg所写的"triple valuation in 18 months"那样,被置于企业AI霸权之争的框架下加以描绘。关于Sierra的最终估值,TechCrunch标注为150亿美元($15B),Tech Startups标注为158亿美元($15.8B),CMSWire标注为150亿美元,各媒体之间存在微妙的出入(很可能158亿美元为post-money估值,而150亿美元是取整后的数字)。Cognition的250亿美元估值尚处于"talks"(洽谈)阶段,包括Bloomberg所附注的"仍在协商中,条件可能发生变更"这一点在内,需要将其理解为尚未确定的因素。

在日本媒体方面,《日本经济新闻》和《东洋经济》以"美国业务AI正向SOP自动生成进化"为题刊登了概要性报道,但涉及Workhelix的斯坦福人脉、Interloom应对欧洲监管的语境、Sequoia的"Services-as-a-Software"论点等深层背景的报道仍然较少。Forbes Japan持续推出Cloud 100和Sequoia AI Ascent的译介文章,相对而言提供了较为深入的报道。

除报道基调之外,市场规模的数字也因媒体和调查机构的不同而存在巨大出入。Fortune Business Insights预测,代理(agent)市场将在2026年从9.14亿美元增长至139.19亿美元(约2,160亿日元)规模,到2034年达到约2万亿日元以上,呈现40.5%的年复合增长率(CAGR)。另一方面,Joget等其他预测则推算2026年市场规模为10.9–12.06亿美元,到2030年急速增长至约930亿美元(约14.4万亿日元),年增长率达44–46%。Gartner作为基准(Baseline)预测,预计"到2026年底,40%的企业应用程序将内置任务特化型AI代理,较2025年不足5%的水平急速扩大",并认为在最佳情况下,到2035年市场将膨胀至1.45万亿美元(约225万亿日元)规模。McKinsey另外给出的数据则指出,按照现有AI代理能力,美国44%的劳动可被执行,到2030年将在美国创造2.9万亿美元(约450万亿日元)的经济价值。各媒体在规模量级上虽相差数个数量级,但在"巨大"这一方向感上均保持一致。

从投资者视角看胜者与败者的格局

俯瞰硅谷风险投资机构的被投企业,便能看清"赢家"与"逐渐被甩在身后"的品类之间的格局。最大的赢家是Agentic SOP中的"服务闭环型"玩家,Sierra、Decagon、Cognition、Cresta、Norm Ai截至2026年5月正逐级攀升估值的阶梯。他们的优势在于,不是单纯把SOP作为文档输出出来,而是能够与客户企业签订把业务彻底"做完"的承诺型合同,其结果是能够切下人力成本预算(Sequoia估算约为软件预算的6倍)这块蛋糕。

下一个赢家是横跨Screen-to-SOP与Passive Capture的流程智能企业。Celonis在2026年2月的Gartner魔力象限中被定位为Process Intelligence领域的领导者,并以AgentC suite与Process Copilots的组合,表明将进军Agentic SOP基础设施。Glean作为"应用程序背后的统一层",在类似ClickHouse的实时检索基础架构之上实现智能体协同,估值正在急速上升。

作为挑战者备受关注的,是源自欧洲的Interloom,以及披着面向消费者外衣作战的Workhelix、Synaply这类Passive Capture初创公司。他们采取销售"个别公司特有的知识图谱"而非"行业通用SOP标准"的策略,正面回应了企业那句"我们的情况很特殊"的经典反驳。2026年第一季度有关美国大企业采用Interloom的新闻(Yahoo Finance、TheNextWeb),被解读为这类上下文图谱型方法开始被美国大企业接受的征兆。

反过来,也存在预计将相对陷入苦战的领域。第一,像Whatfix那样"只是显示画面引导"的传统型DAP这一层,很有可能迟早被Scribe、Guidde,乃至Anthropic Cowork等"计算机使用智能体"所吞并。已并入SAP旗下的WalkMe,作为独立收购候选对象的吸引力也已减退。第二,以Limitless为代表的"常时录音型消费者硬件",其监管与社会摩擦超过技术进步的风险已愈发明显,独立初创公司单凭自身存活下来被认为相当困难。第三,继续以单纯PDF或HTML保存SOP的传统SaaS型知识管理,若无法迁移到为AI读取而优化的机器可读格式,在企业的RFP(提案邀请书)中被淘汰的机会似乎会增多。

而最耐人寻味的结构性变化,是"软件服务领域BPM(业务流程管理)老牌厂商"的处境。UiPath、Automation Anywhere、Blue Prism(SS&C旗下)这些RPA时代的赢家,在Agentic SOP的世界里似乎将被挤压成"单纯的执行系统",因此各家都在推进向LLM原生设计的大幅改造。UiPath自2026年初起力推名为"AgentOps"的运维框架,Automation Anywhere则把"Autonomous Enterprise(自主企业)"全面推到台前,甚至成为斯坦福商学院案例研究的题材。围绕RPA之死的讨论自2025年起一直持续,但有种感觉是,胜负在2026年上半年已大体尘埃落定。

2026下半年及之后预计出现的动向,以及应在何时观测什么

2026年5月以后的大约12个月内值得观察的具体里程碑,可以按照若干维度加以梳理。

第一,Agentic SOP「执行层」的上市筹备很可能会推进。Sierra在2026年5月时点的年度ARR为1.5亿美元、估值158亿美元、ARR倍数约100倍,处于极高水平,但如果明年同期ARR超过5亿美元,那么在2027年第二季度至第三季度进行IPO将成为现实的选项。Decagon同样地,如果能在2026年第四季度预期ARR超过1亿美元,那么2027年内以D轮(即E轮)或secondary为主的流动性事件也将进入视野。Cresta、Glean、Cognition也在多家媒体上持续被作为IPO候选企业提及。

第二,Anthropic Coverwork的全面企业级普及,以及OpenAI ChatGPT Atlas的增长,是否会挤压独立Agentic SOP企业的生存空间,将成为2026年下半年的焦点。像Decagon的AOP那样「在Foundation模型之上叠加企业级护栏与业务知识」这一层较为深厚的玩家能够撑住,而以薄薄一层封装来提供价值的中坚企业,被淘汰的概率较高。Bessemer预测「从2026年Q4到2027年Q2,在智能体安全与治理领域将发生集中收购」。

第三,Passive Capture的监管环境在EU AI Act与EU GDPR的组合之下将进一步收紧,总部位于欧洲的Interloom等企业有可能作为「监管友好型Passive Capture」的代表,开始向美国大型企业渗透。反过来,像Workhelix所推进的「任务级分解与应用路线图」,从企业治理的角度出发,越来越倾向于受到CIO、CHRO的支持,并已开始显现出被纳入Accenture、Deloitte、KPMG等咨询公司标准工具的趋势。Guidde在此次融资中明确宣布与KPMG及Deloitte建立实施合作伙伴关系,可以说是其先行案例。

第四,在日本市场的布局将如何推进,也是观察要点。Sierra和Decagon在2026年5月时点尚未正式宣布设立日本法人,但从World Innovation Lab(WiL)对Cresta进行大额投资这一事实,以及Qualcomm Ventures对Guidde出资这一事实来看,面向日本大企业的分销商网络正在逐步成型。作为日本特有的课题,纸质SOP(业务操作手册)极为厚重,而且其中频繁包含「印章与盖章」流程,因此即便将Screen-to-SOP或Passive Capture原样引进,也可能存在适配率偏低的隐忧。相反地,将纸质SOP通过OCR转换为AOP(Agent Operating Procedure)格式这一细分领域,有可能在日本市场兴起。已有多位业内人士在多场行业大会上作证,称NRI、富士通、NEC已在朝这一方向推进内部研发,而2026年下半年是否会出现源自日本企业的本土玩家,将是值得关注的看点。

第五,是市场规模本身的演变。多项研究表明,Agentic AI市场预计将在2026年从约100亿美元(约1.5万亿日元)起步,到2030年代前半期扩大至900亿~1,400亿美元(约14万亿~22万亿日元)的规模。相对于此,Sequoia对「Services-as-a-Software」的测算(10万亿美元=约1,550万亿日元)过于庞大,但这是取了「被取代的劳动支出总额」的上限的数字,实际上智能体企业能够收费的只是其中的一部分。即便如此,其规模几乎可以肯定是软件市场的数倍。

最终,Screen-to-SOP、Video-to-SOP、Passive Capture、Agentic SOP这四层,与其说是各自独立的市场,不如说正朝着整合为一条流水线的方向发展——即「将熟练者头脑中的隐性知识转换为机器可读的格式,并由智能体执行」。硅谷的VC正在对这条流水线的各层进行大量投资,而在企业一侧,「希望将资深员工退休带来的知识流失降到最低」「希望填补人手不足」「希望削减合规工时」这些需求相互契合,技术栈的整合正在迅速推进。2026年下半年,很可能将成为各层代表企业迈向下一步(IPO、收购、推出新服务)的决定性的12个月。


来源