什么是世界模型（World Models）

"LLM时代正走向终结，Large World Model时代正在开启"——进入2026年，AI行业的重心已开始从文本下一词元预测转向对物理世界下一状态的预测。世界模型（World Models）是指AI构建关于世界运作方式的内部表征，使其能够预测、规划并推理物理定律、空间关系与因果关系的系统。Yann LeCun（AMI Labs创始人、前Meta FAIR）于2022年的论文中提出了JEPA（联合嵌入预测架构），并于2026年3月离开Meta，以10.3亿美元（约1545亿日元）的种子轮融资创立了AMI Labs。Jensen Huang（英伟达CEO）在CES 2026上宣称"Physical AI的ChatGPT时刻已经到来"，并以开源形式发布了世界基础模型"Cosmos"。Fei-Fei Li（斯坦福大学教授）创立的World Labs累计融资12.3亿美元（约1845亿日元），估值达50亿美元（约7500亿日元）。Google DeepMind的Genie 3能够以24fps实时生成数分钟连贯的3D世界，CEO Demis Hassabis断言"实现AGI离不开世界模型"。在机器人领域，Skild AI（估值超140亿美元，约合2.1万亿日元以上）、Physical Intelligence（估值56亿美元，约合8400亿日元，正洽谈超110亿美元估值）、Figure AI（估值390亿美元，约合5.85万亿日元）相继完成巨额融资，加速推进人形机器人的商业化进程。Physical AI软件市场预计将从2025年的21亿美元（约3150亿日元）增长至2030年的172亿美元（约2.58万亿日元），年复合增长率（CAGR）达42%。本文将对世界模型的全貌、发展历史、主要企业的产品与服务、核心技术、应用领域、市场数据以及未来趋势进行全面梳理与深入探讨。

什么是世界模型——预测"下一个物理状态"的AI

世界模型（World Models）是一种让AI学习物理世界运作机制、并通过内部表征预测未来状态的系统。

LLM（大规模语言模型）预测的是"下一个词元（单词）"，而世界模型预测的是"下一个物理状态"。LLM从文本数据中学习语言模式，但无法从本质上理解物理世界的因果关系——例如物体下落的原因、液体从杯中溢出的条件、机器人开门所需的动作顺序。世界模型通过学习环境的压缩表征（潜在空间），并在该表征空间中模拟未来状态，赋予AI一种"行动之前在脑中预演结果"的能力。

人类无意识地就在做这件事。投球之前预测球的轨迹，开车时预测其他车辆的动向，直觉性地调整倾倒杯中水的角度。这在认知科学中被称为"心智模型"或"直觉物理学（intuitive physics）"，而世界模型正是试图用计算机来重现这种能力的尝试。

发展历史——从Dyna到"世界模型元年"

World Models的历史可以追溯到强化学习的草创时期。

1991年，Richard Sutton（阿尔伯塔大学教授，强化学习之父）发表了Dyna架构。他将"规划即在脑中试验事物"这一概念形式化，提出了一种将真实环境中的行动、学习、模型更新与规划交织进行的集成架构。这奠定了基于模型的强化学习的基础。

2018年，David Ha与Jurgen Schmidhuber（IDSIA）发表论文《World Models》，为这一领域赋予了决定性的名称。他们结合VAE（变分自编码器）与RNN（循环神经网络），以无监督方式学习环境的压缩时空表示，并展示了可在智能体自身的"梦境（hallucinated dream）"中进行训练并迁移至真实环境的可行性。

2022年，Yann LeCun（时任Meta FAIR副总裁兼首席AI科学家）发表《A Path Towards Autonomous Machine Intelligence》，提出了JEPA（联合嵌入预测架构）的概念。其核心思想是在抽象表示空间而非像素空间中进行预测，忽略不可预测的细节，在抽象特征层面理解世界——这被认为接近生物大脑对环境建模的方式。LeCun公开表示"仅靠LLM绝对无法实现AGI"，并主张World Models才是通往AGI的唯一道路。

2023年，Google DeepMind的DreamerV3登上《Nature》杂志。这是一种在150余项多样化任务上超越专项方法的通用算法，以单一配置学习环境模型，并展示了在想象场景中持续改进行为的能力。

2024年成为转折之年。Google DeepMind发布了Genie（2024年2月，从单张图像生成可交互的2D环境）与Genie 2（2024年12月，可动作控制的3D世界生成）。Fei-Fei Li（斯坦福大学教授）创立World Labs并融资2.3亿美元（约345亿日元）。Meta发布V-JEPA（从视频中进行抽象特征预测）。由20家AI研究机构组成的联合体公开了开源机器人仿真平台Genesis。

2025至2026年，World Models进入爆发式加速阶段。NVIDIA在CES 2025上发布Cosmos，Google DeepMind的Genie 3实现实时24fps的3D世界生成，Meta的V-JEPA 2仅凭62小时训练数据实现零样本机器人规划，Runway发布GWM-1。2026年3月，LeCun时隔12年离开Meta，以10.3亿美元（约1,545亿日元）种子轮融资创立AMI Labs。这是欧洲初创企业史上最大规模的种子轮融资，被誉为对LLM路线的"最大逆向押注"。同月，仅有1,500万参数的LeWorldModel（LeWM）在单块GPU上经过数小时训练便超越了规模大10倍的模型，展示了World Models民主化的可能性。

主要企业与产品——Physical AI的生态系统

以World Models为核心的Physical AI生态系统正在迅速形成。

NVIDIA通过Cosmos平台为该领域提供基础支撑。其开源提供了三款模型：Cosmos-Predict2.5（模拟世界未来状态）、Cosmos-Transfer2.5（基于空间控制输入的世界模拟）、Cosmos-Reason2（物理常识的理解与推理）。Omniverse（数字孪生平台）已被富士康、台达电子、西门子等企业用于工厂仿真，Isaac Sim（机器人仿真平台）也被Alphabet Intrinsic等公司所采用。面向GR00T人形机器人的基础模型采用Vision-Language-Action（VLA）架构，并已向1X Technologies、Figure AI、Agility Robotics等机器人企业提供。

Google DeepMind凭借Genie 3领跑前沿。该模型能够从文本提示实时生成720p、24fps的3D世界，并实现物体交互、物理规律遵循及其他智能体行为预测。SIMA 2是在该世界模型内运行的AI智能体，研究人员正在探索一种"训练营"模式——让SIMA 2在Genie 3生成的环境中完成数百万项任务。CEO Demis Hassabis表示："实现AGI需要世界模型与自动化实验两大要素"，并透露他将研究时间的大半用于世界模型研究。

AMI Labs（成立于2026年，由Yann LeCun创立）专注于基于JEPA架构的World Models开发。其种子轮融资10.3亿美元（约1545亿日元），是将LeCun在Meta FAIR长达12年的研究成果商业化为独立企业的一次尝试。COO由Meta欧洲区VP Laurent Solly出任，CSO由Saining Xie担任，公司以35亿美元（约5250亿日元）的预融资估值起步。LeWorldModel（LeWM）仅有1500万参数，却以每帧192维的单一token进行编码（token数量为传统方法的1/200），实现了规划速度48倍的提升。

World Labs（由李飞飞创立）专注于"空间智能（Spatial Intelligence）"，致力于构建能够理解和推理三维世界的AI。其首款产品"Marble"可从文本、图像、视频及3D布局生成并编辑持久化的3D环境。公司累计融资12.3亿美元（约1845亿日元），估值约50亿美元（约7500亿日元）。AMD、Autodesk（出资2亿美元）、NVIDIA及Fidelity为主要投资方。

Runway于2025年12月发布GWM-1，推出了考虑物理规律的世界模型，并提出"能够模拟一切可能世界与体验的通用世界模型"这一愿景。2026年2月完成3.15亿美元（约472.5亿日元）融资，估值达53亿美元（约7950亿日元）。

Waymo以Google DeepMind的Genie 3为基础构建了Waymo World Model，用于生成罕见且安全关键的"长尾"场景。Wayve则以GAIA-3（150亿参数）推进端到端自动驾驶仿真，并计划与Uber、日产合作，于2026年下半年在东京开展自动驾驶出租车试运营。

机器人领域的巨头们——世界模型的最大受益者

World Models的演进正在最直接地变革产业的领域，正是机器人技术。

Skild AI 于2026年1月完成C轮融资14亿美元（约2,100亿日元），估值超过140亿美元（约2兆1,000亿日元）。累计融资额超过20亿美元。"Skild Brain"是面向所有机器人的基础模型，2025年从零起步在数月内实现了约3,000万美元（约45亿日元）的营收。软银与NVentures为主要投资方。

Physical Intelligence（Pi） 于2025年11月融资6亿美元（约900亿日元），估值56亿美元（约8,400亿日元）。2026年3月正协商约10亿美元（约1,500亿日元）的新一轮融资，估值预计将超过110亿美元（约1兆6,500亿日元）。CapitalG、Lux Capital及杰夫·贝佐斯为主要投资方。

Figure AI 完成C轮融资10亿美元（约1,500亿日元），估值390亿美元（约5兆8,500亿日元）。公司正在开发第三代人形机器人Figure 03，计划在4年内出货10万台。英特尔、英伟达、高通均已参与投资。

1X Technologies 旗下NEO机器人（重量66磅，可举起150磅以上）搭载"1X World Model AI"，将于2026年以2万美元（约300万日元）开始在美国发货。Agility Robotics 的Digit是唯一已实现商业化部署的人形机器人，在GXO设施中已完成超过10万次托盘搬运。

丰田研究院（TRI） 开发了Diffusion Policy（已掌握60余项精细操作技能）与统一世界模型（UWM，视频与动作数据的集成框架），并通过与波士顿动力的合作伙伴关系（2024年10月）加速推进相关研究。

核心技术——从JEPA到3D Gaussian Splatting

支撑World Models的底层技术涉及多个方面。

JEPA架构的核心在于在表示空间而非像素空间进行预测。编码器将帧观测映射到低维潜在表示，预测器在潜在空间中对环境动态进行建模。在LeWM中，由ViT-Tiny（约500万参数）的编码器和Transformer（约1000万参数）的预测器构成，总参数量仅约1500万。

视频预测模型作为隐式世界模型发挥作用。OpenAI明确将Sora定位为"世界模拟器"，将视频生成从数据中学习物理规律的过程定义为World Models的一种形式。NVIDIA的Cosmos、Runway的GWM-1也采用相同的方法。

3D表示技术也在快速演进。NeRF（Neural Radiance Fields）将场景表示为连续的5D函数，3D Gaussian Splatting则将场景表示为各向异性高斯分布的集合。后者支持高速渲染，2025年以后已成为AR/VR与机器人领域的核心技术。GWM（Gaussian World Models）是基于3D Gaussian Splatting表示的机器人操作用世界模型，实现了动作条件化的3D视频预测。

物理引擎的革新同样不可忽视。Genesis比传统GPU加速模拟器快10至80倍，能够实现比现实世界快10,000倍的训练（将10年的训练压缩至1小时）。它可以根据语言提示生成场景、任务、奖励以及物理精确的视频。

应用领域——从自动驾驶到数字孪生

World Models的应用以自动驾驶为首，涉及多个领域。

自动驾驶是最成熟的应用领域。Waymo World Model被用于生成罕见的"长尾"场景，Wayve的GAIA-3被用于端到端驾驶评估。预计机器人出租车市场将从2024年的约20亿美元增长至2030年的400至1,040亿美元（复合年增长率超过60至90%）。

工业数字孪生由NVIDIA Omniverse引领。富士康、西门子、台达电子已将其应用于整个工厂的仿真，用于生产线优化、故障预测及新产线的设计验证。数字孪生市场预计将从2025年的210至330亿美元扩大至2030年的490至1,500亿美元。

科学仿真方面，NOAA已正式启动AI驱动的全球气象预测模型，并利用ICON模型实现了2.5公里分辨率的全球仿真（荣获2025年戈登·贝尔奖）。混合物理+AI方法大幅降低了计算成本。

游戏与虚拟世界生成方面，Google DeepMind的Project Genie（2026年1月面向公众开放）可从文本生成交互式世界，World Labs的Marble则提供持久性3D环境的生成与编辑功能。

硅谷风投视角——"Physical AI是下一个超级趋势"

硅谷的风险投资机构将World Models定位为"LLM之后"的下一个投资主题。

a16z（Andreessen Horowitz）于2026年1月组建了包含150亿美元（约合人民币1,080亿元）在内的新基金，管理资产规模突破900亿美元。该机构聚焦于Physical AI领域的"部署缺口"——前沿研究正在快速推进，但实际部署的机器人仍停留在"经典"阶段——并分析认为，从通用能力构建到特定任务的微调是关键所在。

Sequoia Capital评价称"在语音、视频和机器人领域可以看到阶跃式变化"，并相继投资了Skild AI和Physical Intelligence。该机构邀请英伟达GEAR Lab负责人Jim Fan参与播客，围绕"Robots Thinking Fast and Slow"这一主题展开讨论。

Khosla Ventures的Vinod Khosla本人宣称"AI不仅将改变数字世界，也将变革物理世界"，联合领投了BrightAI（Physical AI）5,100万美元的A轮融资，并主导了Waabi（自动驾驶卡车）7.5亿美元的C轮融资。该机构已明确认识到LLM以外AI模型的发展潜力。

2025年新增的189家独角兽企业中，有47家（占25%）为AI原生企业，世界模型相关融资在CB Insights市场排名中跻身前3%。

名人观点——"通向AGI的唯一之路"

World Models领域，业界知名人士罕见地呈现出高度一致的观点。

Yann LeCun（AMI Labs CEO）持有最为鲜明的立场。"业界目前对LLM的执念是错误的，最终无法解决许多关键问题。"他主张，基于JEPA的系统通过预测感官输入的抽象特征来学习世界表征——这是一种更接近生物大脑的方法。历经12年Meta FAIR研究后以10.3亿美元独立创业，足见其信念之深。

Jensen Huang（NVIDIA CEO）在CES 2026上宣称："Physical AI的ChatGPT时刻已经到来——机器开始理解现实世界、进行推理并采取行动。"他以开源方式发布Cosmos，将其定位为"机器人与工业AI的游戏规则改变者"。

Demis Hassabis（Google DeepMind CEO）表示："实现AGI需要两件事：世界模型——让AI真正理解物理与空间；以及自动化实验——让AI亲手解决材料科学、核聚变等基础性问题。"他预测AGI将在"5至10年内"实现。

Fei-Fei Li（Stanford教授、World Labs创始人）将空间智能定义为"不依赖2D数据，而是推理3D世界运作方式的能力"，并以12.3亿美元的融资推动其在游戏、VFX、VR及机器人领域的应用。

Jim Fan（NVIDIA GEAR Lab负责人）预测："2026年将成为Large World Models奠定机器人技术基础、开创迈向多模态具身AGI新路径的第一年。"

数字看世界模型——快速扩张的市场

与World Models/Physical AI相关的市场数据显示出快速扩张的态势。

Physical AI软件平台市场预计将从2025年的21亿美元（约3,150亿日元）增长至2030年的172亿美元（约2兆5,800亿日元）（年复合增长率42%）。人形机器人市场将从2025年的19〜29亿美元（约2,850亿〜4,350亿日元）扩大至2030年的40〜153亿美元（约6,000亿〜2兆2,950亿日元）。数字孪生市场到2030年将达到490〜1,500亿美元（约7兆3,500亿〜22兆5,000亿日元）的规模。

企业估值的急剧攀升同样引人瞩目。Figure AI（390亿美元）、Skild AI（超140亿美元）、Physical Intelligence（56亿美元→正在洽谈110亿美元）、Runway（53亿美元）、World Labs（约50亿美元）、AMI Labs（35亿美元）——仅在2024〜2026年短短两年间，与World Models相关的独角兽企业便如雨后春笋般涌现。

日本Physical AI市场预计将从2025年的3.07亿美元（约460亿日元）增长至2035年的67.6亿美元（约1兆140亿日元）（年复合增长率36.2%）。日本政府于2025年12月批准了首个国家AI基本计划，并宣布从2026年度起5年内提供1兆日元（63.4亿美元）的AI扶持措施。拥有制造业与机器人技术传统的日本，在"从精密到智能"的转型过程中，有望成为Physical AI的优先市场。预计到2040年将出现1,100万人的劳动力缺口，对机器人技术的需求在结构上已不可避免。

课题——需要克服的障碍

World Models的未来是光明的，但也存在需要克服的挑战。

计算成本是最大的瓶颈。Transformer和Diffusion Network虽然强大，但推理成本高昂，与机器人实时控制的需求相矛盾。LeWM的1500万参数模型超越了体量大10倍的模型，这一成果正是应对这一挑战的有力回答。

Sim-to-Real差距——在仿真中训练的策略在现实世界中性能下降的问题——依然是根本性挑战。学习过程中可能会出现"利用"仿真内不精确动力学的现象。目前正在研究域随机化（Domain Randomization）、Real-to-Sim-to-Real流水线等应对措施。

评估指标问题同样严峻。FID、FVD等现有指标侧重于像素保真度，却无法衡量物理一致性、动力学特性和因果关系。面向Physical AI的标准评估框架尚未建立。

数据需求也是制约因素。机器人领域跨越多个不同场景（导航、操作、自动驾驶等），缺乏统一的大规模数据集。不过，Genesis等合成数据生成平台已开始缓解这一挑战。

未来展望——从LLM到世界模型的重心转移

业界领袖们对世界模型（World Models）的未来持乐观态度。

2026年被定位为"世界模型元年"。AMI Labs、World Labs正式启动，实时3D世界生成（Genie 3）得以实现。Hassabis预测"智能体系统将达到真正令人印象深刻且可靠的水平"。Wayve/Uber/日产的东京机器人出租车试运营计划于2026年下半年展开。

2027～2028年，人形机器人将开始大规模量产。Figure AI计划出货10万台，Agility Robotics也将扩大至每年数千台的规模。

到2030年，Physical AI软件市场将达到172亿美元，机器人出租车市场将达到400～1040亿美元，预计将在200座以上的城市开展机器人出租车服务。

最重要的趋势是LLM与世界模型的融合。文本的下一个token预测与物理状态的下一个状态预测正加速融合，多模态模型（视觉+语言+动作）进一步推动了这一趋势。如果Jensen Huang所说的"Physical AI的ChatGPT时刻"成真，2026年将作为其起点被铭记。

对行业的影响

第一，World Models（世界模型）的崛起正在将AI研究的重心从文本/语言模型转向对物理世界的理解。LeCun"执着于LLM是错误的"这一主张听起来或许过于极端，但AMI Labs（10.3亿美元）、World Labs（12.3亿美元）、Skild AI（逾20亿美元）所获得的巨额投资，表明风险投资市场已在一定程度上形成了对这一观点的共识。

第二，机器人产业正成为World Models的最大受益者。Figure AI（估值390亿美元）、Skild AI（逾140亿美元）、Physical Intelligence（56亿美元→正洽谈110亿美元）的估值已达到与LLM初创公司相当的水平。若人形机器人的商业化在2027～2028年全面提速，制造业、物流业、服务业的劳动力结构将发生根本性变革。

第三，NVIDIA Cosmos、Google DeepMind Genie 3、Genesis（开源）等平台正在推动World Models开发基础设施的民主化，降低初创企业的进入门槛。LeWM这类仅有1500万参数的超轻量模型在性能上超越了体量大10倍的模型，这暗示了一种有别于LLM"唯规模论"的新路径的可能性。

第四，日本具备制造业与机器人技术的深厚传统、1100万人劳动力缺口所形成的结构性需求，以及政府1万亿日元AI扶持政策等有利条件，有望成为Physical AI的优先市场。软银收购ABB机器人部门、Wayve/Uber/日产的东京自动驾驶出租车计划、日本企业加速采用NVIDIA Omniverse，均是这一趋势的先兆。

参考资料：Yann LeCun《A Path Towards Autonomous Machine Intelligence》（2022），Ha & Schmidhuber《World Models》（arXiv: 1803.10122，2018），Sutton Dyna Architecture（ACM，1991），DreamerV3（Nature，2025），LeWorldModel（arXiv: 2603.19312，2026），AMI Labs 10.3亿美元种子轮（TechCrunch，2026/3），AMI Labs LeCun新创企业（MIT Technology Review，2026/1），NVIDIA Cosmos发布（NVIDIA Newsroom，CES 2025），NVIDIA Cosmos重大更新（NVIDIA Newsroom，2026），World Labs 10亿美元融资（AI Insider，2026/2），World Labs Marble发布（TechBuzz），Google DeepMind Genie 2博客（2024/12），Google DeepMind Genie 3博客（2025/8），Project Genie公开发布（Google博客，2026/1），Waymo World Model博客（2026/2），Wayve GAIA-3发布，Runway 3.15亿美元融资（TechCrunch，2026/2），Runway GWM-1发布（TechCrunch，2025/12），Skild AI 14亿美元C轮（BusinessWire，2026/1），Physical Intelligence 6亿美元融资（Robot Report，2025/11），Physical Intelligence 110亿美元洽谈（Bloomberg，2026/3），Figure AI 10亿美元C轮（Robot Report），1X NEO机器人，Agility Robotics 10万个托盘，TRI扩散策略与统一世界模型，GR00T N1论文（arXiv: 2503.14734），Genesis开源（SiliconANGLE，2024/12），Jensen Huang CES 2026（Axios），Hassabis世界模型与AGI（Humanoids Daily，JA Lookout），Jim Fan红杉播客，Fei-Fei Li空间智能，a16z Physical AI部署差距，a16z 2026年重大趋势，Sequoia 2026年AI展望，Khosla BrightAI投资，Physical AI软件市场（MarketIntelo），数字孪生市场（MarketsandMarkets），人形机器人市场（MarketsandMarkets），Robotaxi市场（Grand View Research），自动驾驶市场（Goldman Sachs，Morgan Stanley），日本AI计划（Asia Tech Daily），日本Physical AI市场（Acumen Research），日本机器人智能化转型（日墨），NOAA AI气象模型，《科学美国人》世界模型革命，V-JEPA（Meta AI博客），Sora 2（OpenAI），OpenAI视频生成即世界模拟器