World Modelsとは何か——「次の物理状態」を予測するAI

世界モデル(World Models)とは何か 図表01

World Models(ワールドモデル)は、AIが物理世界の仕組みを理解し、未来の状態を予測するための内部表現を学習するシステムだ。

LLM(大規模言語モデル)が「次のトークン(単語)」を予測するのに対し、World Modelsは「次の物理状態」を予測する。LLMはテキストデータから言語パターンを学習するが、物体が落下する理由、液体がコップから溢れる条件、ロボットがドアを開けるために必要な動作の順序——こうした物理世界の因果関係を本質的に理解することはできない。World Modelsは、環境の圧縮された表現(潜在空間)を学習し、その表現空間で未来の状態をシミュレートすることで、「行動する前に結果を頭の中で試す」能力をAIに与える。

人間は無意識にこれを行っている。ボールを投げる前にその軌道を予測し、車を運転する際に他の車の動きを予測し、コップの水を傾ける角度を直感的に調整する。これは認知科学で「メンタルモデル」や「直感物理学(intuitive physics)」と呼ばれる能力であり、World Modelsはこれをコンピュータで再現しようとする試みだ。

発展の歴史——Dynaから「ワールドモデル元年」へ

世界モデル(World Models)とは何か 図表02

World Modelsの歴史は、強化学習の草創期に遡る。

1991年、Richard Sutton(アルバータ大学教授、強化学習の父)がDyna Architectureを発表した。「計画とは頭の中で物事を試すこと」という概念を形式化し、実環境での行動・学習・モデル更新・計画をインターリーブする統合アーキテクチャを提案した。これがモデルベース強化学習の基礎となった。

2018年、David HaとJurgen Schmidhuber(IDSIA)が論文「World Models」を発表し、この分野に決定的な名前を与えた。VAE(変分オートエンコーダ)とRNN(回帰型ニューラルネットワーク)を組み合わせ、環境の圧縮された空間的・時間的表現を教師なしで学習し、エージェントを自身の「夢(hallucinated dream)」の中で訓練して実環境に転移可能であることを示した。

2022年、Yann LeCun(当時Meta FAIR VP兼チーフAIサイエンティスト)が「A Path Towards Autonomous Machine Intelligence」を発表し、JEPA(Joint Embedding Predictive Architecture)の概念を提唱した。ピクセル空間ではなく抽象的な表現空間で予測を行うことが核心的アイデアであり、予測不可能な詳細を無視して抽象的な特徴レベルで世界を理解する——これは生物の脳が環境をモデル化する方法に近いとされる。LeCunは「LLMでは絶対にAGIに到達できない」と公言し、World ModelsこそがAGIへの唯一の道だと主張した。

2023年、Google DeepMindのDreamerV3がNature誌に掲載された。150以上の多様なタスクで専門的手法を上回る汎用アルゴリズムであり、単一の設定で環境モデルを学習し、想像したシナリオで行動を改善する能力を実証した。

2024年は転機の年となった。Google DeepMindがGenie(2024年2月、単一画像からインタラクティブな2D環境を生成)とGenie 2(2024年12月、アクション制御可能な3Dワールド生成)を発表。Fei-Fei Li(Stanford教授)がWorld Labsを設立し2.3億ドル(約345億円)を調達。MetaがV-JEPA(ビデオからの抽象的特徴予測)をリリース。20のAI研究機関の連合体がオープンソースのロボティクスシミュレーションプラットフォームGenesisを公開した。

2025〜2026年、World Modelsは爆発的な加速期に入った。NVIDIAがCES 2025でCosmosを発表、Google DeepMindのGenie 3がリアルタイム24fpsの3Dワールド生成を実現、MetaのV-JEPA 2がゼロショットロボット計画を62時間の訓練データのみで達成、RunwayがGWM-1を発表。そして2026年3月、LeCunがMetaを12年ぶりに離れ、10.3億ドル(約1,545億円)のシードラウンドでAMI Labsを設立した。欧州スタートアップ史上最大のシードラウンドであり、LLMへの「最大の逆張り」と評された。同月には、わずか1,500万パラメータのLeWorldModel(LeWM)が、単一GPUで数時間の訓練で10倍大きいモデルを上回る性能を示し、World Modelsの民主化の可能性を示した。

主要企業と製品——Physical AIのエコシステム

World Modelsを軸にしたPhysical AIのエコシステムが急速に形成されている。

NVIDIAはCosmosプラットフォームでこの分野の基盤を提供している。Cosmos-Predict2.5(世界の将来状態をシミュレート)、Cosmos-Transfer2.5(空間制御入力に基づく世界シミュレーション)、Cosmos-Reason2(物理的常識の理解と推論)の3つのモデルをオープンソースで提供。Omniverse(デジタルツインプラットフォーム)はFoxconn、Delta Electronics、Siemens等が工場シミュレーションに採用し、Isaac Sim(ロボティクスシミュレーション)はAlphabet Intrinsic等が活用している。GR00Tヒューマノイドロボット向けファウンデーションモデルは、Vision-Language-Action(VLA)アーキテクチャを採用し、1X TechnologiesFigure AI、Agility Robotics等のロボティクス企業に提供されている。

Google DeepMindはGenie 3で最先端を走る。テキストプロンプトから720pでリアルタイム24fpsの3Dワールドを生成し、物体のインタラクション、物理法則、他エージェントの行動予測を実現する。SIMA 2はこのワールドモデル内で動作するAIエージェントであり、Genie 3が生成する環境でSIMA 2が数百万のタスクを解く「ブートキャンプ」方式が研究されている。Demis Hassabis CEOは「AGI実現にはワールドモデルと自動実験の2つが必要」と述べ、研究時間の大半をワールドモデルに費やしていると明かしている。

AMI Labs(2026年設立、Yann LeCun創業)はJEPAアーキテクチャに基づくWorld Modelsの開発に特化する。10.3億ドル(約1,545億円)のシードラウンドは、LeCunの12年間のMeta FAIR研究を独立企業として商業化する試みだ。COOにMeta欧州VPのLaurent Solly、CSOにSaining Xieを迎え、プレマネー評価額35億ドル(約5,250億円)でスタートした。LeWorldModel(LeWM)は1,500万パラメータという超軽量モデルでありながら、フレームごとに192次元の単一トークンでエンコードし(従来の200分の1のトークン数)、計画速度48倍高速化を達成した。

World Labs(Fei-Fei Li創業)は「空間知能(Spatial Intelligence)」に特化し、3Dの世界を理解・推論するAIを構築する。最初の製品「Marble」はテキスト・画像・動画・3Dレイアウトから永続的な3D環境を生成・編集する。累計12.3億ドル(約1,845億円)を調達し、評価額は約50億ドル(約7,500億円)。AMD、Autodesk(2億ドル出資)、NVIDIA、Fidelityが主要投資家だ。

RunwayはGWM-1(2025年12月発表)で物理法則を考慮したワールドモデルを発表し、「あらゆる可能な世界と体験をシミュレートできる汎用ワールドモデル」のビジョンを掲げる。2026年2月に3億1,500万ドル(約472億5,000万円)を調達し、評価額53億ドル(約7,950億円)に達した。

WaymoはGoogle DeepMindのGenie 3をベースにWaymo World Modelを構築し、レアで安全性重大な「ロングテール」シナリオの生成に活用している。WayveはGAIA-3(150億パラメータ)でエンドツーエンド自動運転のシミュレーションを推進し、Uber、Nissanと共に2026年後半に東京でのロボタクシー試験運用を計画している。

ロボティクスの巨人たち——World Modelsの最大の受益者

世界モデル(World Models)とは何か 図表04

World Modelsの進化が最も直接的に産業を変革しているのが、ロボティクスだ。

Skild AIは2026年1月にシリーズCで14億ドル(約2,100億円)を調達し、評価額140億ドル超(約2兆1,000億円超)。累計調達額は20億ドル超。「Skild Brain」はあらゆるロボットのためのファウンデーションモデルであり、2025年にゼロから数ヶ月で約3,000万ドル(約45億円)の収益を生み出した。SoftBankとNVenturesが主要投資家だ。

Physical Intelligence(Pi)は2025年11月に6億ドル(約900億円)を調達し、評価額56億ドル(約8,400億円)。2026年3月には約10億ドル(約1,500億円)の新ラウンドを協議中で、評価額は110億ドル超(約1兆6,500億円超)に達する見通し。CapitalG、Lux Capital、Jeff Bezosが主要投資家だ。

Figure AIはシリーズCで10億ドル(約1,500億円)を調達し、評価額390億ドル(約5兆8,500億円)。第3世代ヒューマノイドFigure 03を開発し、4年間で10万台の出荷を計画している。Intel、NVIDIA、Qualcommが出資。

1X TechnologiesのNEOロボット(重量66ポンド、150ポンド以上の持ち上げ能力)は「1X World Model AI」を搭載し、2万ドル(約300万円)で2026年に米国出荷開始。Agility RoboticsのDigitは商用展開済みの唯一のヒューマノイドロボットであり、GXO施設で10万以上のトートを移動した実績を持つ。

Toyota Research Institute(TRI)はDiffusion Policy(60以上の巧緻スキルを習得)とUnified World Models(UWM、動画とアクションデータの統合フレームワーク)を開発し、Boston Dynamicsとのパートナーシップ(2024年10月)で研究を加速している。

要素技術——JEPAから3D Gaussian Splattingまで

World Modelsを支える要素技術は多岐にわたる。

JEPAアーキテクチャの核心は、ピクセル空間ではなく表現空間で予測を行うことだ。エンコーダがフレーム観測を低次元の潜在表現にマッピングし、予測器が潜在空間で環境ダイナミクスをモデル化する。LeWMではViT-Tiny(約500万パラメータ)のエンコーダとTransformer(約1,000万パラメータ)の予測器で構成され、合計わずか1,500万パラメータだ。

動画予測モデルは暗黙的なワールドモデルとして機能する。OpenAIはSoraを「ワールドシミュレータ」と明示的に位置づけ、動画生成が物理法則をデータから学習する過程をWorld Modelsの一形態と定義した。NVIDIAのCosmos、RunwayのGWM-1も同じアプローチだ。

3D表現技術も急速に進化している。NeRF(Neural Radiance Fields)はシーンを連続5D関数として表現し、3D Gaussian Splattingは異方性ガウシアンの集合としてシーンを表現する。後者は高速レンダリングが可能で、2025年以降AR/VR・ロボティクスの主要技術となっている。GWM(Gaussian World Models)は3D Gaussian Splatting表現に基づくロボット操作用ワールドモデルであり、アクション条件付き3D動画予測を実現する。

物理エンジンの革新も見逃せない。Genesisは従来のGPU加速シミュレータの10〜80倍高速で、実世界の10,000倍速い訓練(10年分を1時間に圧縮)を可能にする。言語プロンプトからシーン、タスク、報酬、物理的に正確な動画を生成できる。

応用分野——自動運転からデジタルツインまで

World Modelsの応用は、自動運転を筆頭に多岐にわたる。

自動運転は最も成熟した応用分野だ。Waymo World Modelはレアな「ロングテール」シナリオの生成に活用され、WayveのGAIA-3はエンドツーエンド運転の評価に使われている。ロボタクシー市場は2024年の約20億ドル(約3,000億円)から2030年に400〜1,040億ドル(約6兆〜15兆6,000億円)に成長すると予測される(CAGR 60〜90%超)。

産業用デジタルツインは、NVIDIA Omniverseが牽引する。Foxconn、Siemens、Delta Electronicsが工場全体のシミュレーションに採用し、生産ラインの最適化、故障予測、新ラインの設計検証に活用している。デジタルツイン市場は2025年の210〜330億ドル(約3兆1,500億〜4兆9,500億円)から2030年に490〜1,500億ドル(約7兆3,500億〜22兆5,000億円)に拡大する見通しだ。

科学シミュレーションでは、NOAAがAI駆動の全球気象予測モデルを本格運用開始し、ICONモデルで2.5km解像度のグローバルシミュレーションを達成した(2025年Gordon Bell賞)。ハイブリッド物理+AIアプローチで計算コストを大幅に削減している。

ゲーム・仮想世界生成では、Google DeepMindのProject Genie(2026年1月に一般公開)がテキストからインタラクティブな世界を生成し、World LabsのMarbleが永続的な3D環境の生成・編集を提供する。

シリコンバレーVCの視点——「Physical AIは次のメガトレンド」

世界モデル(World Models)とは何か 図表07

シリコンバレーのVCは、World Modelsを「LLMの次」の投資テーマと位置づけている。

a16z(Andreessen Horowitz)は2026年1月に150億ドル(約2兆2,500億円)を含む新ファンドを組成し、運用資産900億ドル超に達した。Physical AIの「展開ギャップ」——最先端研究は急速に進んでいるが、実際に展開されているロボットはまだ「クラシカル」——に注目し、汎用能力の構築から特定タスクへのファインチューニングが鍵と分析している。

Sequoia Capitalは「音声、動画、ロボティクスでステップファンクション的な変化が見られる」と評価し、Skild AIPhysical Intelligenceに出資。NVIDIAのJim Fan(GEAR Lab責任者)をポッドキャストに招き「Robots Thinking Fast and Slow」をテーマに議論した。

Khosla VenturesはVinod Khosla自身が「AIはデジタル世界だけでなく、物理世界も変革する」と宣言し、BrightAI(Physical AI)に5,100万ドルのシリーズAを共同リード、Waabi(自動運転トラック)に7.5億ドルのシリーズCを主導した。LLM以外のAIモデルの可能性を明確に認識している。

2025年の新規ユニコーン189社のうち47社(25%)がAIネイティブ企業であり、ワールドモデル関連の資金調達はCB Insightsの市場ランキングで上位3%にランクされている。

著名人の見解——「AGIへの唯一の道」

World Modelsに対する著名人の見解は、異例の一致を見せている。

Yann LeCunAMI Labs CEO)は最も強い立場を取る。「業界の現在のLLMへの執着は間違っている。最終的に多くの重要な問題を解決できない」。JEPAベースのシステムは感覚入力の抽象的特徴を予測することで世界の表現を学習する——生物の脳に近いアプローチだと主張する。12年間のMeta FAIRでの研究を経て、10.3億ドルで独立したことは、この確信の深さを示す。

Jensen Huang(NVIDIA CEO)はCES 2026で「Physical AIのChatGPTモーメントが来た——機械が現実世界を理解し、推論し、行動し始める時だ」と宣言した。Cosmosをオープンソースで提供し、「ロボティクスと産業AIのゲームチェンジャー」と位置づけている。

Demis Hassabis(Google DeepMind CEO)は「AGI実現には2つのことが必要だ。ワールドモデル——AIが物理と空間を真に理解すること。そして自動実験——AIが材料や核融合などの基本問題をハンズオンで解くこと」と述べ、AGIまで「5〜10年」と予測する。

Fei-Fei Li(Stanford教授、World Labs創業者)は空間知能を「2Dデータに頼るのではなく、3Dの世界がどのように機能するかを推論する能力」と定義し、12.3億ドルの資金でゲーム、VFX、VR、ロボティクスへの応用を推進する。

Jim Fan(NVIDIA GEAR Lab責任者)は「2026年がLarge World Modelsがロボティクスの基盤を築き、マルチモーダルな身体的AGIへの新しいコースを描く最初の年になる」と予測する。

数字で見るWorld Models——急拡大する市場

世界モデル(World Models)とは何か 図表09

World Models/Physical AI関連の市場データは、急拡大を示している。

Physical AIソフトウェアプラットフォーム市場は2025年の21億ドル(約3,150億円)から2030年に172億ドル(約2兆5,800億円)に成長する見通しだ(CAGR 42%)。ヒューマノイドロボット市場は2025年の19〜29億ドル(約2,850億〜4,350億円)から2030年に40〜153億ドル(約6,000億〜2兆2,950億円)に拡大する。デジタルツイン市場は2030年に490〜1,500億ドル(約7兆3,500億〜22兆5,000億円)規模になる。

企業評価額の急騰も目覚ましい。Figure AI(390億ドル)、Skild AI(140億ドル超)、Physical Intelligence(56億ドル→110億ドル交渉中)、Runway(53億ドル)、World Labs(約50億ドル)、AMI Labs(35億ドル)——2024〜2026年のわずか2年で、World Models関連のユニコーンが林立した。

日本のPhysical AI市場は2025年の3.07億ドル(約460億円)から2035年に67.6億ドル(約1兆140億円)に成長する見通しだ(CAGR 36.2%)。日本政府は2025年12月に初の国家AI基本計画を承認し、2026年度から5年間で1兆円(63.4億ドル)のAI支援策を発表。製造業・ロボティクスの伝統を持つ日本は、「精密さから知能へ」の転換においてPhysical AIの優先市場となりうる。2040年までに1,100万人の労働者不足が予測される中、ロボティクスへの需要は構造的に不可避だ。

課題——解決すべき壁

World Modelsの将来は明るいが、克服すべき課題も存在する。

計算コストは最大のボトルネックだ。TransformerやDiffusion Networkは強力だが推論コストが高く、ロボットのリアルタイム制御要求と矛盾する。LeWMの1,500万パラメータモデルが10倍大きいモデルを上回った成果は、この課題への有望な回答だ。

Sim-to-Realギャップ——シミュレーションで訓練したポリシーが現実世界で性能低下する問題——は依然として根本的な課題だ。シミュレーション内の不正確なダイナミクスを「悪用」する学習が発生し得る。ドメインランダマイゼーション、Real-to-Sim-to-Realパイプライン等の対策が研究されている。

評価指標の問題も深刻だ。FID、FVDなどの既存指標はピクセル忠実度を重視するが、物理的一貫性、ダイナミクス、因果関係を測定しない。Physical AI向けの標準的な評価フレームワークはまだ確立されていない。

データ要件も制約要因だ。ロボティクスの多様なドメイン(ナビゲーション、操作、自動運転等)にまたがる統一的な大規模データセットが欠如している。ただし、Genesisのような合成データ生成プラットフォームがこの課題を軽減し始めている。

今後の見通し——LLMからWorld Modelsへの重心移行

世界モデル(World Models)とは何か 図表11

World Modelsの今後について、業界のリーダーたちは楽観的だ。

2026年は「ワールドモデル元年」と位置づけられる。AMI LabsWorld Labsが本格始動し、リアルタイム3Dワールド生成(Genie 3)が実現。Hassabisは「エージェント型システムが本当に印象的で信頼性のあるレベルに到達する」と予測する。Wayve/Uber/Nissanの東京ロボタクシー試験運用が2026年後半に計画されている。

2027〜2028年には、ヒューマノイドロボットの大量生産が開始される。Figure AIの10万台出荷計画、Agility Roboticsの年間数千台規模への拡大が進む。

2030年までに、Physical AIソフトウェア市場は172億ドル、ロボタクシー市場は400〜1,040億ドルに達し、200都市以上でロボタクシーサービスが運用される見通しだ。

最も重要なトレンドは、LLMとWorld Modelsの収束だ。テキストの次トークン予測と物理状態の次状態予測の融合が進み、マルチモーダルモデル(視覚+言語+行動)がこの収束を加速する。Jensen Huangの「Physical AIのChatGPTモーメント」が正しければ、2026年はその起点として記憶されるだろう。

業界への影響

第一に、World Modelsの台頭は、AI研究の重心をテキスト/言語モデルから物理世界の理解へと移行させている。LeCunの「LLMへの執着は間違っている」という主張は極端に聞こえるかもしれないが、AMI Labs(10.3億ドル)、World Labs(12.3億ドル)、Skild AI(20億ドル超)への巨額投資は、VC市場がこの見方に一定の合意を形成していることを示す。

第二に、ロボティクス産業がWorld Modelsの最大の受益者となりつつある。Figure AI(390億ドル評価)、Skild AI(140億ドル超)、Physical Intelligence(56億ドル→110億ドル交渉中)の評価額は、LLMスタートアップに匹敵する水準に達した。ヒューマノイドロボットの商業化が2027〜2028年に本格化すれば、製造業、物流、サービス業の労働力構造が根本的に変わる。

第三に、NVIDIA Cosmos、Google DeepMind Genie 3、Genesis(オープンソース)といったプラットフォームがWorld Modelsの開発基盤を民主化し、スタートアップの参入障壁を低下させている。LeWMのような1,500万パラメータの超軽量モデルが10倍大きいモデルを上回る性能を示したことは、LLMの「スケーリング一辺倒」とは異なるアプローチの可能性を示唆する。

第四に、日本は製造業・ロボティクスの伝統、1,100万人の労働力不足という構造的需要、政府の1兆円AI支援策という条件が揃い、Physical AIの優先市場となりうる。SoftBankのABBロボティクス部門買収、Wayve/Uber/Nissanの東京ロボタクシー計画、NVIDIA Omniverse採用の日本企業の増加は、その兆候だ。