什么是世界模型——预测"下一个物理状态"的AI
世界模型(World Models)是一种让AI学习物理世界运作机制、并通过内部表征预测未来状态的系统。
LLM(大规模语言模型)预测的是"下一个词元(单词)",而世界模型预测的是"下一个物理状态"。LLM从文本数据中学习语言模式,但无法从本质上理解物理世界的因果关系——例如物体下落的原因、液体从杯中溢出的条件、机器人开门所需的动作顺序。世界模型通过学习环境的压缩表征(潜在空间),并在该表征空间中模拟未来状态,赋予AI一种"行动之前在脑中预演结果"的能力。
人类无意识地就在做这件事。投球之前预测球的轨迹,开车时预测其他车辆的动向,直觉性地调整倾倒杯中水的角度。这在认知科学中被称为"心智模型"或"直觉物理学(intuitive physics)",而世界模型正是试图用计算机来重现这种能力的尝试。
发展历史——从Dyna到"世界模型元年"
World Models的历史可以追溯到强化学习的草创时期。
1991年,Richard Sutton(阿尔伯塔大学教授,强化学习之父)发表了Dyna架构。他将"规划即在脑中试验事物"这一概念形式化,提出了一种将真实环境中的行动、学习、模型更新与规划交织进行的集成架构。这奠定了基于模型的强化学习的基础。
2018年,David Ha与Jurgen Schmidhuber(IDSIA)发表论文《World Models》,为这一领域赋予了决定性的名称。他们结合VAE(变分自编码器)与RNN(循环神经网络),以无监督方式学习环境的压缩时空表示,并展示了可在智能体自身的"梦境(hallucinated dream)"中进行训练并迁移至真实环境的可行性。
2022年,Yann LeCun(时任Meta FAIR副总裁兼首席AI科学家)发表《A Path Towards Autonomous Machine Intelligence》,提出了JEPA(联合嵌入预测架构)的概念。其核心思想是在抽象表示空间而非像素空间中进行预测,忽略不可预测的细节,在抽象特征层面理解世界——这被认为接近生物大脑对环境建模的方式。LeCun公开表示"仅靠LLM绝对无法实现AGI",并主张World Models才是通往AGI的唯一道路。
2023年,Google DeepMind的DreamerV3登上《Nature》杂志。这是一种在150余项多样化任务上超越专项方法的通用算法,以单一配置学习环境模型,并展示了在想象场景中持续改进行为的能力。
2024年成为转折之年。Google DeepMind发布了Genie(2024年2月,从单张图像生成可交互的2D环境)与Genie 2(2024年12月,可动作控制的3D世界生成)。Fei-Fei Li(斯坦福大学教授)创立World Labs并融资2.3亿美元(约345亿日元)。Meta发布V-JEPA(从视频中进行抽象特征预测)。由20家AI研究机构组成的联合体公开了开源机器人仿真平台Genesis。
2025至2026年,World Models进入爆发式加速阶段。NVIDIA在CES 2025上发布Cosmos,Google DeepMind的Genie 3实现实时24fps的3D世界生成,Meta的V-JEPA 2仅凭62小时训练数据实现零样本机器人规划,Runway发布GWM-1。2026年3月,LeCun时隔12年离开Meta,以10.3亿美元(约1,545亿日元)种子轮融资创立AMI Labs。这是欧洲初创企业史上最大规模的种子轮融资,被誉为对LLM路线的"最大逆向押注"。同月,仅有1,500万参数的LeWorldModel(LeWM)在单块GPU上经过数小时训练便超越了规模大10倍的模型,展示了World Models民主化的可能性。
主要企业与产品——Physical AI的生态系统
以World Models为核心的Physical AI生态系统正在迅速形成。
NVIDIA通过Cosmos平台为该领域提供基础支撑。其开源提供了三款模型:Cosmos-Predict2.5(模拟世界未来状态)、Cosmos-Transfer2.5(基于空间控制输入的世界模拟)、Cosmos-Reason2(物理常识的理解与推理)。Omniverse(数字孪生平台)已被富士康、台达电子、西门子等企业用于工厂仿真,Isaac Sim(机器人仿真平台)也被Alphabet Intrinsic等公司所采用。面向GR00T人形机器人的基础模型采用Vision-Language-Action(VLA)架构,并已向1X Technologies、Figure AI、Agility Robotics等机器人企业提供。
Google DeepMind凭借Genie 3领跑前沿。该模型能够从文本提示实时生成720p、24fps的3D世界,并实现物体交互、物理规律遵循及其他智能体行为预测。SIMA 2是在该世界模型内运行的AI智能体,研究人员正在探索一种"训练营"模式——让SIMA 2在Genie 3生成的环境中完成数百万项任务。CEO Demis Hassabis表示:"实现AGI需要世界模型与自动化实验两大要素",并透露他将研究时间的大半用于世界模型研究。
AMI Labs(成立于2026年,由Yann LeCun创立)专注于基于JEPA架构的World Models开发。其种子轮融资10.3亿美元(约1545亿日元),是将LeCun在Meta FAIR长达12年的研究成果商业化为独立企业的一次尝试。COO由Meta欧洲区VP Laurent Solly出任,CSO由Saining Xie担任,公司以35亿美元(约5250亿日元)的预融资估值起步。LeWorldModel(LeWM)仅有1500万参数,却以每帧192维的单一token进行编码(token数量为传统方法的1/200),实现了规划速度48倍的提升。
World Labs(由李飞飞创立)专注于"空间智能(Spatial Intelligence)",致力于构建能够理解和推理三维世界的AI。其首款产品"Marble"可从文本、图像、视频及3D布局生成并编辑持久化的3D环境。公司累计融资12.3亿美元(约1845亿日元),估值约50亿美元(约7500亿日元)。AMD、Autodesk(出资2亿美元)、NVIDIA及Fidelity为主要投资方。
Runway于2025年12月发布GWM-1,推出了考虑物理规律的世界模型,并提出"能够模拟一切可能世界与体验的通用世界模型"这一愿景。2026年2月完成3.15亿美元(约472.5亿日元)融资,估值达53亿美元(约7950亿日元)。
Waymo以Google DeepMind的Genie 3为基础构建了Waymo World Model,用于生成罕见且安全关键的"长尾"场景。Wayve则以GAIA-3(150亿参数)推进端到端自动驾驶仿真,并计划与Uber、日产合作,于2026年下半年在东京开展自动驾驶出租车试运营。
机器人领域的巨头们——世界模型的最大受益者
World Models的演进正在最直接地变革产业的领域,正是机器人技术。
Skild AI 于2026年1月完成C轮融资14亿美元(约2,100亿日元),估值超过140亿美元(约2兆1,000亿日元)。累计融资额超过20亿美元。"Skild Brain"是面向所有机器人的基础模型,2025年从零起步在数月内实现了约3,000万美元(约45亿日元)的营收。软银与NVentures为主要投资方。
Physical Intelligence(Pi) 于2025年11月融资6亿美元(约900亿日元),估值56亿美元(约8,400亿日元)。2026年3月正协商约10亿美元(约1,500亿日元)的新一轮融资,估值预计将超过110亿美元(约1兆6,500亿日元)。CapitalG、Lux Capital及杰夫·贝佐斯为主要投资方。
Figure AI 完成C轮融资10亿美元(约1,500亿日元),估值390亿美元(约5兆8,500亿日元)。公司正在开发第三代人形机器人Figure 03,计划在4年内出货10万台。英特尔、英伟达、高通均已参与投资。
1X Technologies 旗下NEO机器人(重量66磅,可举起150磅以上)搭载"1X World Model AI",将于2026年以2万美元(约300万日元)开始在美国发货。Agility Robotics 的Digit是唯一已实现商业化部署的人形机器人,在GXO设施中已完成超过10万次托盘搬运。
丰田研究院(TRI) 开发了Diffusion Policy(已掌握60余项精细操作技能)与统一世界模型(UWM,视频与动作数据的集成框架),并通过与波士顿动力的合作伙伴关系(2024年10月)加速推进相关研究。
核心技术——从JEPA到3D Gaussian Splatting
支撑World Models的底层技术涉及多个方面。
JEPA架构的核心在于在表示空间而非像素空间进行预测。编码器将帧观测映射到低维潜在表示,预测器在潜在空间中对环境动态进行建模。在LeWM中,由ViT-Tiny(约500万参数)的编码器和Transformer(约1000万参数)的预测器构成,总参数量仅约1500万。
视频预测模型作为隐式世界模型发挥作用。OpenAI明确将Sora定位为"世界模拟器",将视频生成从数据中学习物理规律的过程定义为World Models的一种形式。NVIDIA的Cosmos、Runway的GWM-1也采用相同的方法。
3D表示技术也在快速演进。NeRF(Neural Radiance Fields)将场景表示为连续的5D函数,3D Gaussian Splatting则将场景表示为各向异性高斯分布的集合。后者支持高速渲染,2025年以后已成为AR/VR与机器人领域的核心技术。GWM(Gaussian World Models)是基于3D Gaussian Splatting表示的机器人操作用世界模型,实现了动作条件化的3D视频预测。
物理引擎的革新同样不可忽视。Genesis比传统GPU加速模拟器快10至80倍,能够实现比现实世界快10,000倍的训练(将10年的训练压缩至1小时)。它可以根据语言提示生成场景、任务、奖励以及物理精确的视频。
应用领域——从自动驾驶到数字孪生
World Models的应用以自动驾驶为首,涉及多个领域。
自动驾驶是最成熟的应用领域。Waymo World Model被用于生成罕见的"长尾"场景,Wayve的GAIA-3被用于端到端驾驶评估。预计机器人出租车市场将从2024年的约20亿美元增长至2030年的400至1,040亿美元(复合年增长率超过60至90%)。
工业数字孪生由NVIDIA Omniverse引领。富士康、西门子、台达电子已将其应用于整个工厂的仿真,用于生产线优化、故障预测及新产线的设计验证。数字孪生市场预计将从2025年的210至330亿美元扩大至2030年的490至1,500亿美元。
科学仿真方面,NOAA已正式启动AI驱动的全球气象预测模型,并利用ICON模型实现了2.5公里分辨率的全球仿真(荣获2025年戈登·贝尔奖)。混合物理+AI方法大幅降低了计算成本。
游戏与虚拟世界生成方面,Google DeepMind的Project Genie(2026年1月面向公众开放)可从文本生成交互式世界,World Labs的Marble则提供持久性3D环境的生成与编辑功能。
硅谷风投视角——"Physical AI是下一个超级趋势"
硅谷的风险投资机构将World Models定位为"LLM之后"的下一个投资主题。
a16z(Andreessen Horowitz)于2026年1月组建了包含150亿美元(约合人民币1,080亿元)在内的新基金,管理资产规模突破900亿美元。该机构聚焦于Physical AI领域的"部署缺口"——前沿研究正在快速推进,但实际部署的机器人仍停留在"经典"阶段——并分析认为,从通用能力构建到特定任务的微调是关键所在。
Sequoia Capital评价称"在语音、视频和机器人领域可以看到阶跃式变化",并相继投资了Skild AI和Physical Intelligence。该机构邀请英伟达GEAR Lab负责人Jim Fan参与播客,围绕"Robots Thinking Fast and Slow"这一主题展开讨论。
Khosla Ventures的Vinod Khosla本人宣称"AI不仅将改变数字世界,也将变革物理世界",联合领投了BrightAI(Physical AI)5,100万美元的A轮融资,并主导了Waabi(自动驾驶卡车)7.5亿美元的C轮融资。该机构已明确认识到LLM以外AI模型的发展潜力。
2025年新增的189家独角兽企业中,有47家(占25%)为AI原生企业,世界模型相关融资在CB Insights市场排名中跻身前3%。
名人观点——"通向AGI的唯一之路"
World Models领域,业界知名人士罕见地呈现出高度一致的观点。
Yann LeCun(AMI Labs CEO)持有最为鲜明的立场。"业界目前对LLM的执念是错误的,最终无法解决许多关键问题。"他主张,基于JEPA的系统通过预测感官输入的抽象特征来学习世界表征——这是一种更接近生物大脑的方法。历经12年Meta FAIR研究后以10.3亿美元独立创业,足见其信念之深。
Jensen Huang(NVIDIA CEO)在CES 2026上宣称:"Physical AI的ChatGPT时刻已经到来——机器开始理解现实世界、进行推理并采取行动。"他以开源方式发布Cosmos,将其定位为"机器人与工业AI的游戏规则改变者"。
Demis Hassabis(Google DeepMind CEO)表示:"实现AGI需要两件事:世界模型——让AI真正理解物理与空间;以及自动化实验——让AI亲手解决材料科学、核聚变等基础性问题。"他预测AGI将在"5至10年内"实现。
Fei-Fei Li(Stanford教授、World Labs创始人)将空间智能定义为"不依赖2D数据,而是推理3D世界运作方式的能力",并以12.3亿美元的融资推动其在游戏、VFX、VR及机器人领域的应用。
Jim Fan(NVIDIA GEAR Lab负责人)预测:"2026年将成为Large World Models奠定机器人技术基础、开创迈向多模态具身AGI新路径的第一年。"
数字看世界模型——快速扩张的市场
与World Models/Physical AI相关的市场数据显示出快速扩张的态势。
Physical AI软件平台市场预计将从2025年的21亿美元(约3,150亿日元)增长至2030年的172亿美元(约2兆5,800亿日元)(年复合增长率42%)。人形机器人市场将从2025年的19〜29亿美元(约2,850亿〜4,350亿日元)扩大至2030年的40〜153亿美元(约6,000亿〜2兆2,950亿日元)。数字孪生市场到2030年将达到490〜1,500亿美元(约7兆3,500亿〜22兆5,000亿日元)的规模。
企业估值的急剧攀升同样引人瞩目。Figure AI(390亿美元)、Skild AI(超140亿美元)、Physical Intelligence(56亿美元→正在洽谈110亿美元)、Runway(53亿美元)、World Labs(约50亿美元)、AMI Labs(35亿美元)——仅在2024〜2026年短短两年间,与World Models相关的独角兽企业便如雨后春笋般涌现。
日本Physical AI市场预计将从2025年的3.07亿美元(约460亿日元)增长至2035年的67.6亿美元(约1兆140亿日元)(年复合增长率36.2%)。日本政府于2025年12月批准了首个国家AI基本计划,并宣布从2026年度起5年内提供1兆日元(63.4亿美元)的AI扶持措施。拥有制造业与机器人技术传统的日本,在"从精密到智能"的转型过程中,有望成为Physical AI的优先市场。预计到2040年将出现1,100万人的劳动力缺口,对机器人技术的需求在结构上已不可避免。
课题——需要克服的障碍
World Models的未来是光明的,但也存在需要克服的挑战。
计算成本是最大的瓶颈。Transformer和Diffusion Network虽然强大,但推理成本高昂,与机器人实时控制的需求相矛盾。LeWM的1500万参数模型超越了体量大10倍的模型,这一成果正是应对这一挑战的有力回答。
Sim-to-Real差距——在仿真中训练的策略在现实世界中性能下降的问题——依然是根本性挑战。学习过程中可能会出现"利用"仿真内不精确动力学的现象。目前正在研究域随机化(Domain Randomization)、Real-to-Sim-to-Real流水线等应对措施。
评估指标问题同样严峻。FID、FVD等现有指标侧重于像素保真度,却无法衡量物理一致性、动力学特性和因果关系。面向Physical AI的标准评估框架尚未建立。
数据需求也是制约因素。机器人领域跨越多个不同场景(导航、操作、自动驾驶等),缺乏统一的大规模数据集。不过,Genesis等合成数据生成平台已开始缓解这一挑战。
未来展望——从LLM到世界模型的重心转移
业界领袖们对世界模型(World Models)的未来持乐观态度。
2026年被定位为"世界模型元年"。AMI Labs、World Labs正式启动,实时3D世界生成(Genie 3)得以实现。Hassabis预测"智能体系统将达到真正令人印象深刻且可靠的水平"。Wayve/Uber/日产的东京机器人出租车试运营计划于2026年下半年展开。
2027~2028年,人形机器人将开始大规模量产。Figure AI计划出货10万台,Agility Robotics也将扩大至每年数千台的规模。
到2030年,Physical AI软件市场将达到172亿美元,机器人出租车市场将达到400~1040亿美元,预计将在200座以上的城市开展机器人出租车服务。
最重要的趋势是LLM与世界模型的融合。文本的下一个token预测与物理状态的下一个状态预测正加速融合,多模态模型(视觉+语言+动作)进一步推动了这一趋势。如果Jensen Huang所说的"Physical AI的ChatGPT时刻"成真,2026年将作为其起点被铭记。
对行业的影响
第一,World Models(世界模型)的崛起正在将AI研究的重心从文本/语言模型转向对物理世界的理解。LeCun"执着于LLM是错误的"这一主张听起来或许过于极端,但AMI Labs(10.3亿美元)、World Labs(12.3亿美元)、Skild AI(逾20亿美元)所获得的巨额投资,表明风险投资市场已在一定程度上形成了对这一观点的共识。
第二,机器人产业正成为World Models的最大受益者。Figure AI(估值390亿美元)、Skild AI(逾140亿美元)、Physical Intelligence(56亿美元→正洽谈110亿美元)的估值已达到与LLM初创公司相当的水平。若人形机器人的商业化在2027~2028年全面提速,制造业、物流业、服务业的劳动力结构将发生根本性变革。
第三,NVIDIA Cosmos、Google DeepMind Genie 3、Genesis(开源)等平台正在推动World Models开发基础设施的民主化,降低初创企业的进入门槛。LeWM这类仅有1500万参数的超轻量模型在性能上超越了体量大10倍的模型,这暗示了一种有别于LLM"唯规模论"的新路径的可能性。
第四,日本具备制造业与机器人技术的深厚传统、1100万人劳动力缺口所形成的结构性需求,以及政府1万亿日元AI扶持政策等有利条件,有望成为Physical AI的优先市场。软银收购ABB机器人部门、Wayve/Uber/日产的东京自动驾驶出租车计划、日本企业加速采用NVIDIA Omniverse,均是这一趋势的先兆。
参考资料:Yann LeCun《A Path Towards Autonomous Machine Intelligence》(2022),Ha & Schmidhuber《World Models》(arXiv: 1803.10122,2018),Sutton Dyna Architecture(ACM,1991),DreamerV3(Nature,2025),LeWorldModel(arXiv: 2603.19312,2026),AMI Labs 10.3亿美元种子轮(TechCrunch,2026/3),AMI Labs LeCun新创企业(MIT Technology Review,2026/1),NVIDIA Cosmos发布(NVIDIA Newsroom,CES 2025),NVIDIA Cosmos重大更新(NVIDIA Newsroom,2026),World Labs 10亿美元融资(AI Insider,2026/2),World Labs Marble发布(TechBuzz),Google DeepMind Genie 2博客(2024/12),Google DeepMind Genie 3博客(2025/8),Project Genie公开发布(Google博客,2026/1),Waymo World Model博客(2026/2),Wayve GAIA-3发布,Runway 3.15亿美元融资(TechCrunch,2026/2),Runway GWM-1发布(TechCrunch,2025/12),Skild AI 14亿美元C轮(BusinessWire,2026/1),Physical Intelligence 6亿美元融资(Robot Report,2025/11),Physical Intelligence 110亿美元洽谈(Bloomberg,2026/3),Figure AI 10亿美元C轮(Robot Report),1X NEO机器人,Agility Robotics 10万个托盘,TRI扩散策略与统一世界模型,GR00T N1论文(arXiv: 2503.14734),Genesis开源(SiliconANGLE,2024/12),Jensen Huang CES 2026(Axios),Hassabis世界模型与AGI(Humanoids Daily,JA Lookout),Jim Fan红杉播客,Fei-Fei Li空间智能,a16z Physical AI部署差距,a16z 2026年重大趋势,Sequoia 2026年AI展望,Khosla BrightAI投资,Physical AI软件市场(MarketIntelo),数字孪生市场(MarketsandMarkets),人形机器人市场(MarketsandMarkets),Robotaxi市场(Grand View Research),自动驾驶市场(Goldman Sachs,Morgan Stanley),日本AI计划(Asia Tech Daily),日本Physical AI市场(Acumen Research),日本机器人智能化转型(日墨),NOAA AI气象模型,《科学美国人》世界模型革命,V-JEPA(Meta AI博客),Sora 2(OpenAI),OpenAI视频生成即世界模拟器