摘要

由波兰出身、31岁的 Mati Staniszewski(马特乌什·马蒂·斯塔尼舍夫斯基)联合创立的语音AI初创公司 ElevenLabs,于2026年2月在 Sequoia Capital 领投的5亿美元(约775亿日元)C轮系列D融资中,估值达到110亿美元(约1万7,050亿日元)。同年5月,其ARR突破5亿美元(约775亿日元),BlackRock、NVIDIA、Jamie Foxx 等作为追加投资者加入。本文将从多角度审视:始于华沙配音不满的产品原点、历经 Imperial College、BlackRock、Palantir 的创始人轨迹,以及硅谷VC为何对"语音是AI下一代界面"抱有强烈信念。


从华沙到帝国理工 —— 数学少年的原风景

Mateusz "Mati" Staniszewski 于1995年出生在波兰华沙近郊。在接受中等教育之前,他便举家迁入华沙市内就学,并完成了在波兰也以顶尖名校而闻名的 Copernicus Bilingual High School(米科瓦伊·哥白尼双语高中)的学业。正是在这所学校,他结识了后来与他共同创立 ElevenLabs 的 Piotr Dąbkowski(彼得·东布科夫斯基,1994年12月出生)。正如 Staniszewski 本人在后来多次接受采访时所讲述的那样,两人从十几岁起便共同感叹"好莱坞电影波兰语配音质量之低",由一名单口旁白员(波兰独有的"lektor"朗读方式)平板地念出所有登场人物台词的那种声音体验所带来的违和感,正深植于他们日后创业构想的最底层。

远赴英国后,Staniszewski 进入 Imperial College London 学习数学,并于2017年获得学士学位。在 Imperial 就读期间,他发起了由学生主导的数学大会"Mathscon",通过聚焦数学"有趣一面"的活动运营,亲身经历了主办、筹资以及邀请演讲者等各项工作。Forbes 和 Sifted 等多家媒体报道称,这是他"最初的创业实践",也为日后他在 ElevenLabs 所展现的经营者形象——创业初期亲自从1,700余份申请中逐一进行招聘面试这一广为人知的轶事——埋下了伏笔。同届同学和友人的回忆显示,Staniszewski 与其说是"出类拔萃的秀才",不如说是"既懂礼节,又能朝着目标坚韧深耕的实务家型人物",在波兰人社区中以低调却内心坚定而著称。

BlackRock 与 Palantir —— 创业前的两段历练

从帝国理工学院毕业后,Staniszewski 在 Opera Software 短暂工作了一段时间,随后进入英国 BlackRock 的投资组合分析部门(Portfolio Analytics Group,PAG)。在任职的 14 个月期间,他参与了面向高净值人群的资产管理平台「Aladdin Wealth」的发布,并负责结构化产品的建模工作。eFinancialCareers 的相关报道指出,他作为「BlackRock 初级分析师出身、年仅 30 岁便缔造了估值超过 10 亿美元(约合 1,550 亿日元)的 AI 公司的人物」,在欧洲金融街被作为榜样式人物广为谈论。

此后,Staniszewski 转入 Palantir Technologies 担任 Deployment Strategist(部署战略师),任职近 4 年。Palantir 的部署岗位是一种将 Foundry/Gotham 带入政府机构及大型企业一线、从数据整合到工作流重新设计进行一站式运营的实务型岗位,创业之前的 Staniszewski 以欧洲、中东及公共部门项目为主,积累了与一线决策者直接交涉的经验。Forbes 分析认为,他在日后偏爱使用的「以 FDE 方式紧贴客户」这一经营哲学 ——直接体现在 ElevenLabs 的 Forward Deployed Engineering 团队以及企业客户成功团队的设计理念中——正源自其 Palantir 时代的 DNA。

另一方面,联合创始人 Piotr Dąbkowski 毕业于牛津大学计算机科学系,之后在剑桥大学取得硕士学位,并曾在 Google 担任研究/机器学习工程师数年。两人以在商业/运营方面具备优势的 Staniszewski,与在深度学习和语音合成领域拥有深厚研究见解的 Dąbkowski 这一互补阵容,于 2022 年 5 月以英国法人形式创立了 ElevenLabs。

ElevenLabs 的诞生 —— 从对字幕翻译的不满到语音 AI 的全球标准

ElevenLabs 从其设立宗旨阶段起,就并非所谓的"AI 应用程序初创企业",而是作为"研究先行的实验室"起步的。正如 Andreessen Horowitz 的普通合伙人 Jennifer Li 在 a16z 博客《Where you build is who you are: the ElevenLabs story》中所论述的那样,将主要据点设在伦敦、华沙、纽约这些"美国西海岸之外"的城市,是为了将面对多语种地区的非英语母语者的感性留在组织 DNA 中而做出的有意选择。Jennifer Li 将 ElevenLabs 评价为"迄今为止投资过的扩张速度最快的 AI 企业之一",并高度评价了其以挫败感为起点的产品所具有的炽热温度。

在技术层面,ElevenLabs 以从零开始自主构建的基于深度学习的语音合成模型(Eleven Multilingual / Eleven v3 / Flash 系列)为核心,将文本朗读(TTS)、语音克隆、语音到语音转换(STS)、Conversational AI / ElevenAgents、用于转写的 Scribe,乃至于 2026 年 4 月在 iOS 上正式公开的 ElevenMusic 一并贯通地配齐,被评价为"构建了通过一个 API、一份订阅提供 Voice / Music / SFX 的唯一技术栈"(Music Business Worldwide)。Variety 和 Billboard 将与 ElevenMusic 同期发布的"The Eleven Album"拥有 Liza Minnelli、Art Garfunkel 等传奇艺术家、并通过与业界唱片公司合作发行这一点,定位为其与 Suno、Udio 的差异化要素。

D轮 —— 5亿美元,估值110亿美元

ElevenLabs 于 2026 年 2 月 4 日宣布完成 5 亿美元(约 775 亿日元)的 D 轮融资,投后估值达到 110 亿美元(约 1 兆 7,050 亿日元)。本轮由 Sequoia Capital 领投,其成长业务部门合伙人 Andrew Reed 加入董事会。与此同时,现有投资方中 a16z 将出资额增加至原来的 4 倍,Iconiq 增至 3 倍;除 BroadLight、NFDG、Valor Capital、AMP Coalition、Smash Capital 等既有阵容外,Lightspeed Venture Partners、Evantic Capital、Bond Capital 等新进力量也加入了本轮。TechCrunch 强调,110 亿美元的估值相当于 2025 年 1 月 C 轮(3.3 亿至 33 亿美元,由 ICONIQ Growth 与 a16z 联合领投,融资额 1.8 亿美元=约 279 亿日元)的 3 倍以上。

此后的 3 个月间,投资方阵容进一步扩大。据 Bloomberg 与 TechCrunch 于 2026 年 5 月 5 日报道,作为该 D 轮的跟投,BlackRock、Wellington、D.E. Shaw、Schroders 等大型机构投资者,NVIDIA、Salesforce Ventures、Santander、KPN、Deutsche Telekom 等事业公司,以及 Jamie Foxx、Eva Longoria、《鱿鱼游戏》创作者 Hwang Dong-hyuk(黄东赫)等知名人士投资者也相继加入。Tech.eu 报道称,由此 D 轮最终的实际股权金额较初次发布时进一步增加,累计融资额已超过 7.81 亿美元(约 1,210 亿日元)。

至于这些跟投投资方的参与比例及各自的出资金额,ElevenLabs 及各家媒体均未予披露,本文也不就具体明细展开。不过,需要注意的是,Bloomberg 引述知情人士的说法,将这种由机构投资者、战略事业公司、知名人士组成的三层结构定位为"为 IPO 做准备的铺垫"。

硅谷VC的视角——"语音是AI的下一个操作系统"

硅谷主要VC集中投资ElevenLabs的背景中,存在一个共同的论点。那就是"无论是文本还是屏幕,语音才是下一代AI界面的核心"这一坚定信念。

ICONIQ Growth在其官方博客"Tripling Down on ElevenLabs"中,由普通合伙人Seth Pierrepont、合伙人Ritika Pai以及投资人Anna Textor联合署名,将Mati和Piotr从初期就提出的"作为最具人性化的通信形态,语音将成为人类与智能系统之间的桥梁"这一愿景定位为已成为现实。该公司将ElevenLabs评价为"重新定义了语音以及语音的创造方式本身"的企业,并将其在B轮、C轮、D轮三次追加投资的做法说明为"信念押注的典型范例"。

Sequoia Capital的Andrew Reed在D轮公布之际评论道:"Mati和Piotr是卓越的创始人和领导者。他们将ElevenLabs培育成了全球AI生态系统中最成功且最具影响力的企业之一。"他强调了在同一个组织内同时扩展世界级研究、释放创造力的工具以及面向企业的语音代理这一稀有特质。Sequoia的成长部门近年以集中投资OpenAI、Anysphere、Glean等LLM领域的巨型独角兽而闻名,而Andrew Reed将语音选为该公司"下一个应当占据的模态层",并将ElevenLabs定位为其中的主角。

a16z方面,Jennifer Li在"Where you build is who you are"中分析称"以欧洲为根据地这一区位本身塑造了组织文化",并将那些以身体感知方式深刻了解英语以外语言圈真实语音体验匮乏的创始人的存在论述为竞争优势。a16z自接近种子轮的A轮阶段(2023年6月,1,900万美元=约29亿日元)参与以来,在B轮联合领投了8,000万美元(约124亿日元)的轮次,C轮和D轮也持续增加投资额,因此根据PitchBook的计算,该公司单独的累计风险敞口被认为已超过1亿美元(约155亿日元)的量级。

关于Lightspeed Venture Partners和Bond Capital(由Mary Meeker领导的成长型VC)从D轮新加入这一点,The SaaS News和Dataconomy报道称,这是一个具有象征意义的动向,表明在硅谷传统成长型投资者之间,ElevenLabs已被升级到"IPO候选名单"。Mary Meeker近年在自己的"Trends"报告中将生成AI的普及曲线与互联网黎明期相提并论进行分析,因此Bond押注ElevenLabs这一举动也可以被解读为正式佐证了"语音界面将成为可与商业互联网黎明期相媲美的基础设施层"这一判断。

从战略事业公司(CVC)一方来看,NVIDIA于2026年2月与Google Cloud共同与ElevenLabs签订了多年期合约,发布了在搭载Blackwell世代RTX PRO 6000 GPU的G4虚拟机上支撑语音模型训练与推理的计划。这与其说是单纯的出资,不如说是横跨半导体、云、模型层的垂直整合型联盟,相当于硅谷的基础设施层将ElevenLabs认定为"官方voice推理合作伙伴"。Salesforce Ventures、Deutsche Telekom、Santander、KPN等事业公司的投资,则带有强烈的战略出资色彩——各自以将ElevenAgents嵌入自家客户接触点(CRM、通信、银行)为前提,这也与独立系VC的投资逻辑性质不同。

硅谷投资者社区也存在警惕的论点。MVP Capital或Sacra的行业分析、PitchBook的报告一致指出:"Suno(音乐生成)、CartesiaHumePlayHT,以及Mistral以开源方式发布的Voxtral TTS等竞争对手的商品化压力正日益增强。"实际上,Mistral的Voxtral TTS在2026年3月的盲测中相对ElevenLabs Flash v2.5获得了62.8%的偏好率,这意味着"世界水准的模型即使以开放权重也能够实现"。Sequoia和a16z此次的增加投资,也是对ElevenLabs能否以超越此类商品化风险的速度,进化为"不只是单一模型,而是捆绑代理/音乐/创意的垂直堆栈"的押注。

ARR与客户基础——突破5亿美元

ElevenLabs 的业绩走势,即便与硅谷过去的 SaaS 独角兽相比,仍呈现出异常陡峭的上升曲线。截至 2025 年末,其 ARR 约为 3.3 亿美元(约合 512 亿日元),这是 Mati 本人于 2026 年 1 月向 TechCrunch 确认的数字。根据 SaaStr 的分析,从 ARR 零起步到达到这一水平仅用了 24 个月,与 Twilio 达到同等水平所花费的 8 年相比,速度遥遥领先。CEO 本人在 CNBC 的采访中公开表示,2026 年第一季度新增净 ARR 达 1 亿美元(约合 155 亿日元),季度末 ARR 约达 4.5 亿美元(约合 698 亿日元)。此外,据报道,截至 2026 年 5 月,其 ARR 已突破 5 亿美元(约合 775 亿日元)大关,企业业务占全公司营收的 51%,收益结构已从消费者主导反转为企业主导。

客户基础也从最初的创作者群体(有声书、播客、YouTube)迅速实现多元化。在企业业务方面,囊括了向 Cisco 的 Webex AI Agent 提供语音、向 IBM watsonx Orchestrate 集成 TTS/STT、被 Adobe 和 Epic Games 等创意/游戏行业主要参与者引入,以及 Washington Post 和 TIME 等媒体、HarperCollins 等出版商,还有 Deutsche Telekom、Square、Revolut、乌克兰政府等客户。印度大型电商平台 Meesho 利用 ElevenAgents 构建对话式购物体验,这是 Mati 本人在 Pigment Podcast 采访中反复提及的代表性成功案例之一。

ElevenMusic 与新业务 ——从语音到整体"声音"

2026年4月1日在 iOS 上发布的 ElevenMusic 被定位为 Suno 和 Udio 的竞争对手。根据 Music Business Worldwide 和 Music Ally 的报道,ElevenMusic 不仅仅是一款音乐生成工具,更志在打造一项拥有信息流的"可聆听+可混音的社交音乐服务"。用户可以通过自然语言提示词每天最多生成7首歌曲,并配备了通过文本对他人作品进行混音的功能,以及可欣赏约4,000名人类艺术家曲目的信息流。此外,通过业界唱片公司发行有 Liza Minnelli 和 Art Garfunkel 等传奇艺术家参与的《The Eleven Album》的战略,与 Suno 因版权诉讼而被起诉的背景形成鲜明对比,可以说明确地展示了"与权利人合作"的方针。PYMNTS 在同一时间评论称:"在 Taylor Swift 一方加强对 AI 音乐生成平台的法律措施之际,ElevenLabs 刻意部署了倾向于权利人的阵形。"

就整体业务组合而言,Mati 在 CNBC、London Tech Week、Pigment Podcast 等各种场合反复表示:"我们的使命不局限于语音。我们的目标在于重新定义包括文本、语音、音乐和音效在内的所有'声音'的生成与理解",并明确提出以 ElevenAgents(对话型智能体平台)、ElevenCreative(面向创作者的工作室)、Scribe(高精度语音识别)和 ElevenMusic 为四大支柱的战略。

深度伪造的监管与治理——高速增长背后潜藏的最大风险

在高速增长的同时,ElevenLabs 也受到了监管机构的严厉审视。在2024年总统大选周期中,该公司的语音合成技术被报告了多起未经授权克隆用于自动语音电话(robocall)的案例,导致美国国内的监管讨论上升到了一个新的高度。2026年4月16日,美国参议院联合经济委员会(Joint Economic Committee)的资深成员 Maggie Hassan 参议员(民主党/新罕布什尔州)向 ElevenLabs、LOVO、Speechify、VEED 四家公司的 CEO 发出公开信,要求就以诈骗为目的的语音克隆使用检测机制、本人同意的确认程序、对公众人物和未成年人的保护措施、语音水印的实施情况、日志保存以及向警方报案的机制作出回答。信件开头引用的数字包括 FBI 报告的8.93亿美元(约1,384亿日元)的AI语音诈骗损失,以及民间机构对到2027年年度损失最高将达400亿美元(约6.2万亿日元)的预估。

对此,ElevenLabs 的公关负责人向 Axios 表示:"我们拥有防止技术被滥用的全面保障措施,会屏蔽名人和公众人物的语音克隆,并通过自动和人工双重方式审查违反政策的行为",并说明正在分阶段完善水印、Voice Verification、违反政策检测、内容来源信息(C2PA 系溯源)等机制。在 Sifted 对 Mati 本人的采访中,他也提到深度伪造的防范是"从启动第一天起最重要的议题",与 Disney 等 IP 持有者的合作也是在这一背景下展开的。

欧洲方面,EU AI Act 中高风险及生成式AI条款的分阶段适用预计将于2026年中期之后全面启动,ElevenLabs 由于将主要据点设在伦敦和华沙,必须比硅谷竞争对手更早地将欧洲监管合规纳入业务体系。这从长期来看虽然是合规成本因素,但正如 Mati 本人在 London Tech Week 2026 的演讲中暗示的那样,"扎根欧洲意味着能够将与监管的共同设计内化为自身强项"这一点,正在被欧美双方的风险投资机构重新评估。

未来动向 —— IPO、Klarna 董事、新兴市场拓展

未来12至18个月内可衡量的主要里程碑大致可归纳为三项。

第一是 IPO。Tech.eu 与 CNBC 明确报道称,在2026年2月 D 轮融资阶段,Mati 曾发言表示"正在为 IPO 推进准备工作"。虽然具体时间表尚未公布,但 Bloomberg 援引知情人士的证词指出,机构投资者与战略 CVC 参与的跟投本身即相当于"IPO 前夕的银团组建",并指出其可能意图在 ARR 突破10亿美元(约1,550亿日元)的时点进行定价。需要说明的是,目前尚未就 SEC 备案及上市主承销商的选定发布官方公告,本文也不会涉足基于揣测的数字。

第二是新兴市场及本地化战略的全面铺开。TechCrunch 提到的 D 轮资金用途,是在美欧之外,于印度、日本、新加坡、巴西、墨西哥等非英语圈开设办事处并扩充人员。就日本市场而言,截至目前(2026年5月)尚未确认正式设立日本法人,但 ElevenLabs 的模型已支持包括日语在内的30余种语言,面向企业客户的销售本地化预计将从下个季度起分阶段启动。Mati 本人已确定将在 UNBOUND(HubSpot 的营销/销售活动,预定于2026年9月16〜18日举办)上发表主题演讲,预计届时将进一步阐述企业拓展的地缘政治扩张。

第三,Mati 个人加入外部董事会,作为跨行业的信号备受关注。2025年5月,他出任 Klarna Group PLC 董事会成员。Klarna 的 CEO Sebastian Siemiatkowski 在其 X 帖子中表示欢迎,称"从 Mati 的 AI 见解、在 ElevenLabs 的业绩、波兰出身的背景、乃至连复杂的姓氏都相似这一点,都是理想的董事会成员"。在 AI 与金融服务交汇处兴起的"AI 金融助手"的设计中,Mati 作为外部董事将如何施加影响,是硅谷与欧洲金融科技双方 VC 共同关注的议题。

同僚与业界的评价——31岁亿万富翁的真实形象

Forbes 在 2026 年版亿万富豪榜上将 Staniszewski 列为全球第 2,274 位(净资产估计为 11 亿美元,约合 1,705 亿日元)。据称他与 Dąbkowski 分别持有 ElevenLabs 约 15% 的股权,D 轮融资 110 亿美元的估值构成了净资产估算的基础。Forbes 杂志 2025 年 12 月号将两人作为封面人物,以《一家波兰小型初创公司如何成为 AI 声音的中心》为题进行了卷首特辑报道。

组织内部的评价与外部赞誉的论调并不完全一致。汇总 Glassdoor 上 36 条评论,综合评分为 5 分满分中的 4.3 分,77% 的员工表示愿意向朋友推荐,被高度评价为在技术最前沿领域能获得极大裁量权的工作场所。以纽约、伦敦、华沙为中心从 30 多个国家招揽人才所形成的文化多样性、工程层面所有权之大、与创始人之间距离之近等被列为正面因素。另一方面,工作与生活平衡的评分较低,仅为 3.8 分,存在每周工作超过 60 小时已成常态的声音,以及对 Forward Deployed Engineering 部门内裙带招聘和派系化管理的批评,尽管数量不多。eFinancialCareers 提到了 Staniszewski 作为 CEO,即便在 ARR 超过 2 亿美元(约合 310 亿日元)的阶段仍坚持与所有应聘候选人进行一轮面试的轶事,并分析认为他将 Palantir 出身者特有的"扎根现场"风格原样规模化,这既是优势所在,同时也是组织成长阵痛的根源。

总体而言,硅谷知名 VC 群体对 Staniszewski 评价的核心,归结为这样一点:他与其说是"技术天才",不如说是"在语言、监管、运营、销售的所有地表层面都能坚韧地划出制压线、极为罕见的部署型 CEO"。Andrew Reed(Sequoia)、Jennifer Li(a16z)、Seth Pierrepont(ICONIQ)三人各自独立地公开表示"他是卓越的 founder/leader"——这一事实表明,在 AI 泡沫之中,那些"以执行而非炒作来挑选标的"的 VC 审美眼光,正汇聚于这位 31 岁的波兰出身者身上。下一个里程碑,是硅谷长久以来翘首以待的 AI 系 IPO 的号炮,而最先敲响这一钟声的会不会是 ElevenLabs ——这是从 2026 年下半年到 2027 年上半年最值得关注的看点。


来源