Apakah itu Model Dunia (World Models)

"Era LLM semakin berakhir. Era Large World Model bermula" — Memasuki tahun 2026, titik berat industri AI mula beralih daripada ramalan token seterusnya dalam teks kepada ramalan keadaan seterusnya dunia fizikal. World Models (model dunia) ialah sistem yang membolehkan AI membina representasi dalaman tentang cara dunia berfungsi, serta meramal, merancang, dan membuat inferens berkaitan undang-undang fizik, hubungan ruang, dan hubungan sebab-akibat. Yann LeCun (pengasas AMI Labs, bekas Meta FAIR) mencadangkan JEPA (Joint Embedding Predictive Architecture) dalam kertasnya pada tahun 2022, dan pada Mac 2026 beliau meninggalkan Meta untuk menubuhkan AMI Labs dengan pusingan benih bernilai 1.03 bilion dolar (kira-kira 154.5 bilion yen). Jensen Huang (CEO NVIDIA) mengumumkan di CES 2026 bahawa "Momen ChatGPT untuk Physical AI telah tiba," dan menyediakan model asas dunia "Cosmos" sebagai sumber terbuka. World Labs milik Fei-Fei Li (Profesor Stanford) telah mengumpul 1.23 bilion dolar (kira-kira 184.5 bilion yen) secara kumulatif, mencapai penilaian 5 bilion dolar (kira-kira 750 bilion yen). Genie 3 daripada Google DeepMind mampu menjana dunia 3D yang konsisten selama beberapa minit pada kadar masa nyata 24fps, manakala CEO Demis Hassabis menegaskan bahawa "model dunia adalah penting untuk merealisasikan AGI." Dalam bidang robotik, Skild AI (penilaian melebihi 14 bilion dolar = lebih 2.1 trilion yen), Physical Intelligence (penilaian 5.6 bilion dolar = kira-kira 840 bilion yen, dalam rundingan untuk melebihi 11 bilion dolar), dan Figure AI (penilaian 39 bilion dolar = kira-kira 5.85 trilion yen) telah mengumpul dana yang besar untuk mempercepatkan pengkomersilan robot humanoid. Pasaran perisian Physical AI dijangka berkembang daripada 2.1 bilion dolar (kira-kira 315 bilion yen) pada tahun 2025 kepada 17.2 bilion dolar (kira-kira 2.58 trilion yen) menjelang 2030 (CAGR 42%). Makalah ini akan mengkaji secara menyeluruh gambaran keseluruhan World Models, sejarah perkembangannya, produk dan perkhidmatan syarikat utama, teknologi komponen, bidang aplikasi, data pasaran, serta trend masa hadapan.

Apakah World Models — AI yang Meramalkan "Keadaan Fizikal Seterusnya"

World Models (Model Dunia) ialah sistem yang membolehkan AI mempelajari representasi dalaman untuk memahami cara dunia fizikal berfungsi dan meramalkan keadaan masa depan.

Jika LLM (Large Language Model) meramalkan "token (perkataan) seterusnya", World Models pula meramalkan "keadaan fizikal seterusnya". LLM mempelajari corak bahasa daripada data teks, tetapi ia tidak dapat memahami secara mendasar hubungan sebab-akibat dunia fizikal — seperti mengapa objek jatuh, syarat-syarat yang menyebabkan cecair melimpah dari cawan, atau urutan pergerakan yang diperlukan oleh robot untuk membuka pintu. World Models mempelajari representasi terpadat (ruang laten) bagi sesuatu persekitaran, dan dengan mensimulasikan keadaan masa depan dalam ruang representasi tersebut, ia memberikan AI keupayaan untuk "mencuba hasil dalam fikiran sebelum bertindak".

Manusia melakukan ini secara tidak sedar. Mereka meramalkan trajektori bola sebelum melemparnya, meramalkan pergerakan kenderaan lain semasa memandu, dan secara intuitif menyesuaikan sudut untuk menuang air dari cawan. Keupayaan ini dikenali dalam sains kognitif sebagai "model mental" dan "fizik intuitif (intuitive physics)", dan World Models merupakan usaha untuk mereplikasi keupayaan ini menggunakan komputer.

Sejarah Perkembangan——Dari Dyna ke "Tahun Pertama Model Dunia"

Sejarah World Models bermula pada zaman awal pembelajaran pengukuhan (reinforcement learning).

Tahun 1991, Richard Sutton (Profesor Universiti Alberta, bapa pembelajaran pengukuhan) memperkenalkan Dyna Architecture. Beliau memformalisasikan konsep "perancangan ialah mencuba sesuatu dalam fikiran" dan mencadangkan seni bina bersepadu yang menyelang-selikan tindakan, pembelajaran, kemaskini model, dan perancangan dalam persekitaran sebenar. Inilah yang menjadi asas kepada pembelajaran pengukuhan berasaskan model.

Tahun 2018, David Ha dan Jurgen Schmidhuber (IDSIA) menerbitkan makalah "World Models", memberikan nama yang definitif kepada bidang ini. Mereka menggabungkan VAE (Variational Autoencoder) dan RNN (Rangkaian Neural Berulang) untuk mempelajari representasi ruang dan masa yang termampat bagi persekitaran secara tanpa penyeliaan, serta menunjukkan bahawa ejen boleh dilatih dalam "mimpi (hallucinated dream)" mereka sendiri dan dipindahkan ke persekitaran sebenar.

Tahun 2022, Yann LeCun (ketika itu VP Meta FAIR dan Ketua Saintis AI) menerbitkan "A Path Towards Autonomous Machine Intelligence" dan mencadangkan konsep JEPA (Joint Embedding Predictive Architecture). Idea terasnya ialah membuat ramalan dalam ruang representasi abstrak, bukan ruang piksel — memahami dunia pada tahap ciri abstrak dengan mengabaikan perincian yang tidak boleh diramalkan. Ini dianggap menghampiri cara otak biologi memodelkan persekitaran. LeCun secara terbuka menyatakan bahawa "AGI tidak mungkin dicapai dengan LLM semata-mata", dan berhujah bahawa World Models adalah satu-satunya jalan menuju AGI.

Tahun 2023, DreamerV3 dari Google DeepMind diterbitkan dalam jurnal Nature. Ia merupakan algoritma umum yang mengatasi kaedah khusus dalam lebih 150 tugasan pelbagai, membuktikan kemampuannya mempelajari model persekitaran dengan satu konfigurasi tunggal dan memperbaiki tindakan melalui senario yang dibayangkan.

Tahun 2024 menjadi titik perubahan. Google DeepMind memperkenalkan Genie (Februari 2024, menjana persekitaran 2D interaktif daripada satu imej) dan Genie 2 (Disember 2024, menjana dunia 3D yang boleh dikawal dengan tindakan). Fei-Fei Li (Profesor Stanford) menubuhkan World Labs dan mengumpulkan 230 juta dolar (kira-kira 34.5 bilion yen). Meta mengeluarkan V-JEPA (ramalan ciri abstrak daripada video). Gabungan 20 institusi penyelidikan AI menerbitkan platform simulasi robotik sumber terbuka, Genesis.

Tahun 2025–2026, World Models memasuki fasa percepatan pesat. NVIDIA memperkenalkan Cosmos di CES 2025, Genie 3 dari Google DeepMind merealisasikan penjanaan dunia 3D masa nyata pada 24fps, V-JEPA 2 dari Meta mencapai perancangan robot zero-shot hanya dengan 62 jam data latihan, dan Runway memperkenalkan GWM-1. Kemudian pada Mac 2026, LeCun meninggalkan Meta selepas 12 tahun dan menubuhkan AMI Labs dengan pusingan benih bernilai 1.03 bilion dolar (kira-kira 154.5 bilion yen). Ini merupakan pusingan benih terbesar dalam sejarah syarikat permulaan Eropah, dan disifatkan sebagai "pertaruhan terbalik terbesar" terhadap LLM. Pada bulan yang sama, LeWorldModel (LeWM) dengan hanya 15 juta parameter menunjukkan prestasi melebihi model yang 10 kali lebih besar, dilatih dalam beberapa jam pada satu GPU, memperlihatkan potensi demokratisasi World Models.

Syarikat dan Produk Utama — Ekosistem Physical AI

Ekosistem Physical AI yang berpaksi pada World Models sedang terbentuk dengan pesat.

NVIDIA menyediakan asas dalam bidang ini melalui platform Cosmos. Tiga model ditawarkan sebagai sumber terbuka: Cosmos-Predict2.5 (mensimulasikan keadaan masa depan dunia), Cosmos-Transfer2.5 (simulasi dunia berdasarkan input kawalan ruang), dan Cosmos-Reason2 (pemahaman dan penaakulan akal fizik). Omniverse (platform kembar digital) telah diguna pakai oleh Foxconn, Delta Electronics, Siemens dan lain-lain untuk simulasi kilang, manakala Isaac Sim (simulasi robotik) dimanfaatkan oleh Alphabet Intrinsic dan sebagainya. Model asas untuk robot humanoid GR00T menggunakan seni bina Vision-Language-Action (VLA) dan disediakan kepada syarikat robotik seperti 1X Technologies, Figure AI, dan Agility Robotics.

Google DeepMind memimpin dengan Genie 3. Ia menjana dunia 3D pada 720p secara masa nyata pada 24fps daripada gesaan teks, merealisasikan interaksi objek, hukum fizik, dan ramalan tindakan ejen lain. SIMA 2 ialah ejen AI yang beroperasi dalam model dunia ini, dan kaedah "kem latihan" sedang dikaji di mana SIMA 2 menyelesaikan berjuta-juta tugas dalam persekitaran yang dijana oleh Genie 3. Ketua Pegawai Eksekutif Demis Hassabis menyatakan bahawa "dua perkara diperlukan untuk merealisasikan AGI: model dunia dan eksperimen automatik," dan mendedahkan bahawa sebahagian besar masa penyelidikannya dihabiskan untuk model dunia.

AMI Labs (ditubuhkan 2026, diasaskan oleh Yann LeCun) mengkhusus dalam pembangunan World Models berdasarkan seni bina JEPA. Pusingan benih bernilai 1.03 bilion dolar (lebih kurang 154.5 bilion yen) merupakan usaha untuk mengkomersilkan 12 tahun penyelidikan Meta FAIR LeCun sebagai syarikat bebas. Dengan Laurent Solly (Naib Presiden Eropah Meta) sebagai COO dan Saining Xie sebagai CSO, syarikat ini bermula dengan penilaian pra-wang sebanyak 3.5 bilion dolar (lebih kurang 525 bilion yen). LeWorldModel (LeWM) ialah model ultra-ringan dengan hanya 15 juta parameter, namun ia mengekod setiap bingkai dengan satu token 192 dimensi (1/200 daripada bilangan token kaedah konvensional), mencapai kelajuan perancangan 48 kali lebih pantas.

World Labs (diasaskan oleh Fei-Fei Li) mengkhusus dalam "Kecerdasan Ruang (Spatial Intelligence)", membina AI yang memahami dan menaakulkan dunia 3D. Produk pertamanya "Marble" menjana dan mengedit persekitaran 3D yang berterusan daripada teks, imej, video, dan tataletak 3D. Syarikat ini telah mengumpul 1.23 bilion dolar (lebih kurang 184.5 bilion yen) secara kumulatif, dengan penilaian sekitar 5 bilion dolar (lebih kurang 750 bilion yen). AMD, Autodesk (pelaburan 200 juta dolar), NVIDIA, dan Fidelity adalah pelabur utama.

Runway mengumumkan model dunia yang mengambil kira hukum fizik dengan GWM-1 (diumumkan Disember 2025), mengemukakan visi "model dunia serba guna yang boleh mensimulasikan setiap dunia dan pengalaman yang mungkin." Syarikat ini mengumpul 315 juta dolar (lebih kurang 47.25 bilion yen) pada Februari 2026, mencapai penilaian 5.3 bilion dolar (lebih kurang 795 bilion yen).

Waymo membina Waymo World Model berdasarkan Genie 3 Google DeepMind, memanfaatkannya untuk menjana senario "ekor panjang" yang jarang berlaku namun kritikal dari segi keselamatan. Wayve mendorong simulasi pemanduan autonomi hujung-ke-hujung dengan GAIA-3 (15 bilion parameter), dan bersama Uber dan Nissan, merancang operasi percubaan robotaksi di Tokyo pada separuh kedua 2026.

Gergasi Robotik——Penerima Manfaat Terbesar Model Dunia

Evolusi World Models yang paling langsung mengubah industri adalah dalam bidang robotik.

Skild AI telah mengumpulkan dana sebanyak $1.4 bilion (kira-kira ¥210 bilion) dalam Siri C pada Januari 2026, dengan penilaian melebihi $14 bilion (lebih daripada kira-kira ¥2.1 trilion). Jumlah terkumpul melebihi $2 bilion. "Skild Brain" adalah model asas untuk semua jenis robot, dan berjaya menjana hasil kira-kira $30 juta (sekitar ¥4.5 bilion) dalam beberapa bulan bermula dari sifar pada tahun 2025. SoftBank dan NVentures adalah pelabur utama.

Physical Intelligence (Pi) mengumpulkan $600 juta (kira-kira ¥90 bilion) pada November 2025, dengan penilaian $5.6 bilion (kira-kira ¥840 bilion). Pada Mac 2026, syarikat ini sedang berbincang mengenai pusingan baharu bernilai kira-kira $1 bilion (sekitar ¥150 bilion), dengan penilaian dijangka melebihi $11 bilion (lebih daripada kira-kira ¥1.65 trilion). CapitalG, Lux Capital, dan Jeff Bezos adalah pelabur utama.

Figure AI mengumpulkan $1 bilion (kira-kira ¥150 bilion) dalam Siri C, dengan penilaian $39 bilion (kira-kira ¥5.85 trilion). Syarikat ini sedang membangunkan humanoid generasi ketiga, Figure 03, dan merancang penghantaran 100,000 unit dalam tempoh empat tahun. Intel, NVIDIA, dan Qualcomm turut melabur.

Robot NEO dari 1X Technologies (berat 66 paun, keupayaan angkat melebihi 150 paun) dilengkapi dengan "1X World Model AI" dan akan mula dihantar ke Amerika Syarikat pada tahun 2026 dengan harga $20,000 (kira-kira ¥3 juta). Robot Digit dari Agility Robotics adalah satu-satunya robot humanoid yang telah digunakan secara komersial, dengan rekod memindahkan lebih daripada 100,000 tote di kemudahan GXO.

Toyota Research Institute (TRI) telah membangunkan Diffusion Policy (menguasai lebih daripada 60 kemahiran ketangkasan) dan Unified World Models (UWM, rangka kerja integrasi data video dan tindakan), serta mempercepatkan penyelidikan melalui perkongsian dengan Boston Dynamics (Oktober 2024).

Teknologi Komponen — Dari JEPA hingga 3D Gaussian Splatting

Terdapat pelbagai teknologi asas yang menyokong World Models.

Inti seni bina JEPA ialah membuat ramalan dalam ruang perwakilan, bukan ruang piksel. Enkoder memetakan pemerhatian bingkai kepada perwakilan laten berdimensi rendah, manakala peramal memodelkan dinamik persekitaran dalam ruang laten. Dalam LeWM, ia terdiri daripada enkoder ViT-Tiny (kira-kira 5 juta parameter) dan peramal Transformer (kira-kira 10 juta parameter), dengan jumlah hanya 15 juta parameter.

Model ramalan video berfungsi sebagai model dunia yang tersirat. OpenAI secara eksplisit memposisikan Sora sebagai "simulator dunia", dan mentakrifkan proses penjanaan video yang mempelajari undang-undang fizik daripada data sebagai satu bentuk World Models. Cosmos oleh NVIDIA dan GWM-1 oleh Runway juga menggunakan pendekatan yang sama.

Teknologi perwakilan 3D turut berkembang pesat. NeRF (Neural Radiance Fields) mewakili sesebuah pemandangan sebagai fungsi 5D berterusan, manakala 3D Gaussian Splatting mewakili pemandangan sebagai koleksi Gaussian anisotropik. Yang terakhir membolehkan rendering berkelajuan tinggi, dan telah menjadi teknologi utama dalam AR/VR dan robotik sejak tahun 2025. GWM (Gaussian World Models) ialah model dunia untuk manipulasi robot berdasarkan perwakilan 3D Gaussian Splatting, yang merealisasikan ramalan video 3D bersyarat tindakan.

Inovasi dalam enjin fizik juga tidak boleh diabaikan. Genesis beroperasi 10 hingga 80 kali lebih pantas daripada simulator pecutan GPU konvensional, membolehkan latihan 10,000 kali lebih pantas daripada dunia sebenar (memampatkan 10 tahun menjadi 1 jam). Ia mampu menjana pemandangan, tugas, ganjaran, dan video yang tepat secara fizikal daripada gesaan bahasa.

Bidang Aplikasi——Daripada Pemanduan Autonomi hingga Kembar Digital

Aplikasi World Models merangkumi pelbagai bidang, dengan kenderaan autonomi sebagai yang paling utama.

Kenderaan autonomi adalah bidang aplikasi yang paling matang. Waymo World Model digunakan untuk menjana senario "long-tail" yang jarang berlaku, manakala GAIA-3 oleh Wayve digunakan untuk menilai pemanduan hujung ke hujung. Pasaran robotaxi dijangka berkembang daripada kira-kira 2 bilion dolar (lebih kurang 300 bilion yen) pada tahun 2024 kepada 40 hingga 104 bilion dolar (lebih kurang 6 trilion hingga 15.6 trilion yen) menjelang 2030 (CAGR melebihi 60~90%).

Kembar digital industri dipimpin oleh NVIDIA Omniverse. Foxconn, Siemens, dan Delta Electronics telah menggunakannya untuk simulasi keseluruhan kilang, memanfaatkannya bagi pengoptimuman lini pengeluaran, ramalan kerosakan, dan pengesahan reka bentuk lini baharu. Pasaran kembar digital dijangka berkembang daripada 21 hingga 33 bilion dolar (lebih kurang 3.15 trilion hingga 4.95 trilion yen) pada tahun 2025 kepada 49 hingga 150 bilion dolar (lebih kurang 7.35 trilion hingga 22.5 trilion yen) menjelang 2030.

Simulasi saintifik menyaksikan NOAA memulakan operasi penuh model ramalan cuaca global berasaskan AI, mencapai simulasi global dengan resolusi 2.5km menggunakan model ICON (Anugerah Gordon Bell 2025). Pendekatan hibrid fizik+AI ini mengurangkan kos pengiraan secara ketara.

Penjanaan permainan dan dunia maya melihat Project Genie oleh Google DeepMind (dibuka kepada umum pada Januari 2026) menjana dunia interaktif daripada teks, manakala Marble oleh World Labs menyediakan penjanaan dan penyuntingan persekitaran 3D yang berterusan.

Perspektif VC Silicon Valley——"Physical AI adalah Megatrend Seterusnya"

VC Silicon Valley meletakkan World Models sebagai tema pelaburan "selepas LLM".

a16z (Andreessen Horowitz) menubuhkan dana baharu pada Januari 2026 termasuk 15 bilion dolar AS (kira-kira 2.25 trilion yen), mencapai aset yang diuruskan melebihi 90 bilion dolar AS. Mereka memberi perhatian kepada "jurang penggunaan" Physical AI——penyelidikan terkini berkembang pesat, tetapi robot yang sebenarnya digunakan masih bersifat "klasikal"——dan menganalisis bahawa penalaan halus daripada pembinaan keupayaan umum kepada tugas tertentu adalah kunci.

Sequoia Capital menilai bahawa "perubahan fungsi langkah dapat dilihat dalam suara, video, dan robotik", serta melabur dalam Skild AI dan Physical Intelligence. Mereka menjemput Jim Fan dari NVIDIA (Ketua GEAR Lab) ke dalam podcast untuk membincangkan tema "Robots Thinking Fast and Slow".

Khosla Ventures dengan Vinod Khosla sendiri mengisytiharkan bahawa "AI bukan sahaja mengubah dunia digital, malah turut mengubah dunia fizikal", bersama-sama memimpin Siri A sebanyak 51 juta dolar AS untuk BrightAI (Physical AI), dan memimpin Siri C sebanyak 750 juta dolar AS untuk Waabi (trak pemanduan autonomi). Mereka jelas menyedari potensi model AI selain LLM.

Daripada 189 unicorn baharu pada tahun 2025, 47 syarikat (25%) adalah syarikat asli AI, dan pengumpulan dana berkaitan model dunia berada dalam kedudukan 3% teratas dalam ranking pasaran CB Insights.

Pandangan Tokoh Terkenal——"Satu-satunya Jalan Menuju AGI"

Pandangan tokoh-tokoh terkemuka mengenai World Models menunjukkan persetujuan yang luar biasa.

Yann LeCun (CEO AMI Labs) mengambil pendirian yang paling tegas. "Obsesi industri terhadap LLM masa kini adalah salah. Ia akhirnya tidak akan dapat menyelesaikan banyak masalah penting." Sistem berasaskan JEPA belajar merepresentasikan dunia dengan meramalkan ciri-ciri abstrak daripada input deria — pendekatan yang menurutnya lebih hampir dengan otak biologi. Setelah 12 tahun penyelidikan di Meta FAIR, kemandiriannya dengan penilaian 1.03 bilion dolar mencerminkan kedalaman keyakinannya.

Jensen Huang (CEO NVIDIA) mengumumkan di CES 2026: "Momen ChatGPT untuk Physical AI telah tiba — inilah masanya mesin mula memahami dunia nyata, membuat penaakulan, dan bertindak." Beliau menawarkan Cosmos sebagai sumber terbuka dan memposisikannya sebagai "pengubah permainan untuk robotik dan AI perindustrian."

Demis Hassabis (CEO Google DeepMind) menyatakan: "Untuk merealisasikan AGI, dua perkara diperlukan: model dunia — supaya AI benar-benar memahami fizik dan ruang — serta eksperimen automatik, supaya AI dapat menyelesaikan masalah asas seperti bahan dan fusi nuklear secara hands-on." Beliau meramalkan AGI akan tercapai dalam "5 hingga 10 tahun."

Fei-Fei Li (Profesor Stanford, pengasas World Labs) mentakrifkan kecerdasan ruang sebagai "keupayaan untuk membuat penaakulan tentang cara dunia 3D berfungsi, bukan bergantung pada data 2D," dan memacu aplikasinya dalam permainan, VFX, VR, dan robotik dengan pembiayaan sebanyak 1.23 bilion dolar.

Jim Fan (Ketua NVIDIA GEAR Lab) meramalkan bahawa "2026 akan menjadi tahun pertama di mana Large World Models membina asas untuk robotik dan melakar kursus baharu menuju AGI berbadan multimodal."

Dunia Model dalam Angka——Pasaran yang Berkembang Pesat

Data pasaran berkaitan World Models/Physical AI menunjukkan pengembangan yang pesat.

Pasaran platform perisian Physical AI dijangka berkembang daripada $2.1 bilion (kira-kira ¥315 bilion) pada 2025 kepada $17.2 bilion (kira-kira ¥2.58 trilion) menjelang 2030 (CAGR 42%). Pasaran robot humanoid pula dijangka meningkat daripada $1.9–2.9 bilion (kira-kira ¥285–435 bilion) pada 2025 kepada $4.0–15.3 bilion (kira-kira ¥600 bilion–¥2.295 trilion) menjelang 2030. Pasaran digital twin pula dijangka mencapai saiz $49–150 bilion (kira-kira ¥7.35–22.5 trilion) menjelang 2030.

Lonjakan penilaian korporat juga amat ketara. Figure AI ($39 bilion), Skild AI (melebihi $14 bilion), Physical Intelligence ($5.6 bilion → dalam rundingan $11 bilion), Runway ($5.3 bilion), World Labs (kira-kira $5 bilion), AMI Labs ($3.5 bilion) — dalam tempoh hanya dua tahun antara 2024–2026, syarikat-syarikat bertaraf unicorn berkaitan World Models telah muncul dengan pesat.

Pasaran Physical AI Jepun dijangka berkembang daripada $307 juta (kira-kira ¥46 bilion) pada 2025 kepada $6.76 bilion (kira-kira ¥1.014 trilion) menjelang 2035 (CAGR 36.2%). Kerajaan Jepun meluluskan pelan asas AI kebangsaan yang pertama pada Disember 2025, dan mengumumkan pakej sokongan AI bernilai ¥1 trilion ($6.34 bilion) selama lima tahun bermula tahun fiskal 2026. Jepun, yang mempunyai tradisi kukuh dalam pembuatan dan robotik, berpotensi menjadi pasaran utama Physical AI dalam peralihan "daripada ketepatan kepada kecerdasan". Di tengah-tengah ramalan kekurangan 11 juta tenaga kerja menjelang 2040, permintaan terhadap robotik adalah tidak dapat dielakkan secara struktural.

Cabaran — Halangan yang Perlu Diatasi

Masa depan World Models adalah cerah, namun terdapat cabaran yang perlu diatasi.

Kos pengiraan merupakan kesesakan terbesar. Transformer dan Diffusion Network adalah berkuasa tetapi memerlukan kos inferens yang tinggi, yang bercanggah dengan keperluan kawalan masa nyata robot. Pencapaian model 15 juta parameter LeWM yang mengatasi model 10 kali lebih besar merupakan jawapan yang menjanjikan kepada cabaran ini.

Jurang Sim-to-Real — masalah penurunan prestasi polisi yang dilatih dalam simulasi apabila diterapkan di dunia nyata — masih merupakan cabaran asas. Pembelajaran yang "mengeksploitasi" dinamik tidak tepat dalam simulasi boleh berlaku. Langkah-langkah seperti pengrawakan domain (domain randomization) dan saluran paip Real-to-Sim-to-Real sedang dikaji.

Masalah metrik penilaian juga serius. Metrik sedia ada seperti FID dan FVD mengutamakan ketepatan piksel, tetapi tidak mengukur konsistensi fizikal, dinamik, dan hubungan sebab-akibat. Rangka kerja penilaian standard untuk Physical AI masih belum ditetapkan.

Keperluan data juga menjadi faktor pembatas. Terdapat kekurangan set data berskala besar yang bersepadu merangkumi pelbagai domain robotik (navigasi, manipulasi, pemanduan autonomi, dan lain-lain). Namun, platform penjanaan data sintetik seperti Genesis mula meringankan cabaran ini.

Prospek Masa Hadapan——Peralihan Pusat Graviti daripada LLM kepada Model Dunia

Para pemimpin industri berasa optimistik tentang masa depan World Models.

2026 dikenal pasti sebagai "tahun permulaan model dunia". AMI Labs dan World Labs memulakan operasi penuh, dengan penciptaan dunia 3D masa nyata (Genie 3) menjadi kenyataan. Hassabis meramalkan bahawa "sistem berasaskan ejen akan mencapai tahap yang benar-benar mengesankan dan boleh dipercayai". Ujian perkhidmatan robotaksi Wayve/Uber/Nissan di Tokyo dirancang untuk separuh kedua tahun 2026.

Antara 2027 hingga 2028, pengeluaran besar-besaran robot humanoid akan bermula. Rancangan penghantaran 100,000 unit oleh Figure AI dan pengembangan Agility Robotics ke skala ribuan unit setahun sedang berjalan.

Menjelang 2030, pasaran perisian Physical AI dijangka mencapai 17.2 bilion dolar, pasaran robotaksi antara 40 hingga 104 bilion dolar, dengan perkhidmatan robotaksi beroperasi di lebih 200 bandar.

Trend paling penting ialah penumpuan LLM dan World Models. Penggabungan antara ramalan token seterusnya dalam teks dengan ramalan keadaan seterusnya dalam dunia fizikal semakin berkembang, dan model multimodal (penglihatan + bahasa + tindakan) mempercepatkan penumpuan ini. Jika "Momen ChatGPT untuk Physical AI" yang diungkapkan Jensen Huang adalah tepat, maka 2026 akan diingati sebagai titik permulaannya.

Kesan Terhadap Industri

Pertama, kebangkitan World Models sedang mengalihkan tumpuan penyelidikan AI daripada model teks/bahasa kepada pemahaman dunia fizikal. Dakwaan LeCun bahawa "kegilaan terhadap LLM adalah salah" mungkin kedengaran melampau, namun pelaburan besar-besaran ke dalam AMI Labs (AS$1.03 bilion), World Labs (AS$1.23 bilion), dan Skild AI (melebihi AS$2 bilion) menunjukkan bahawa pasaran modal teroka (VC) telah mencapai kesepakatan tertentu mengenai pandangan ini.

Kedua, industri robotik sedang menjadi penerima manfaat terbesar daripada World Models. Penilaian Figure AI (AS$39 bilion), Skild AI (melebihi AS$14 bilion), dan Physical Intelligence (AS$5.6 bilion → dalam rundingan AS$11 bilion) telah mencapai tahap yang setanding dengan syarikat permulaan LLM. Sekiranya pengkomersialan robot humanoid benar-benar berkembang pesat antara 2027–2028, struktur tenaga kerja dalam sektor pembuatan, logistik, dan perkhidmatan akan berubah secara mendasar.

Ketiga, platform seperti NVIDIA Cosmos, Google DeepMind Genie 3, dan Genesis (sumber terbuka) sedang mendemokrasikan asas pembangunan World Models dan menurunkan halangan kemasukan bagi syarikat permulaan. Hakikat bahawa model ultra-ringan seperti LeWM dengan 15 juta parameter mengatasi prestasi model yang 10 kali lebih besar mencadangkan kemungkinan pendekatan yang berbeza daripada prinsip "skala semata-mata" yang mendominasi LLM.

Keempat, Jepun berpotensi menjadi pasaran keutamaan untuk Physical AI, berbekalkan tradisi pembuatan dan robotik yang kukuh, permintaan struktural daripada kekurangan tenaga kerja seramai 11 juta orang, serta dasar sokongan AI kerajaan bernilai 1 trilion yen. Pengambilalihan bahagian robotik ABB oleh SoftBank, rancangan robotaksi Tokyo oleh Wayve/Uber/Nissan, serta peningkatan penggunaan NVIDIA Omniverse dalam kalangan syarikat Jepun merupakan tanda-tanda awal fenomena ini.

Maklumat Rujukan: Yann LeCun "A Path Towards Autonomous Machine Intelligence" (2022), Ha & Schmidhuber "World Models" (arXiv: 1803.10122, 2018), Sutton Dyna Architecture (ACM, 1991), DreamerV3 (Nature, 2025), LeWorldModel (arXiv: 2603.19312, 2026), AMI Labs $1.03B Seed Round (TechCrunch, 2026/3), AMI Labs LeCun New Venture (MIT Technology Review, 2026/1), NVIDIA Cosmos Launch (NVIDIA Newsroom, CES 2025), NVIDIA Cosmos Major Release (NVIDIA Newsroom, 2026), World Labs $1B Funding (AI Insider, 2026/2), World Labs Marble Launch (TechBuzz), Google DeepMind Genie 2 Blog (2024/12), Google DeepMind Genie 3 Blog (2025/8), Project Genie Public Launch (Google Blog, 2026/1), Waymo World Model Blog (2026/2), Wayve GAIA-3 Launch, Runway $315M Raise (TechCrunch, 2026/2), Runway GWM-1 Release (TechCrunch, 2025/12), Skild AI $1.4B Series C (BusinessWire, 2026/1), Physical Intelligence $600M (Robot Report, 2025/11), Physical Intelligence $11B Talks (Bloomberg, 2026/3), Figure AI $1B Series C (Robot Report), 1X NEO Robot, Agility Robotics 100K Totes, TRI Diffusion Policy & Unified World Models, GR00T N1 Paper (arXiv: 2503.14734), Genesis Open Source (SiliconANGLE, 2024/12), Jensen Huang CES 2026 (Axios), Hassabis World Models & AGI (Humanoids Daily, JA Lookout), Jim Fan Sequoia Podcast, Fei-Fei Li Spatial Intelligence, a16z Physical AI Deployment Gap, a16z Big Ideas 2026, Sequoia AI in 2026, Khosla BrightAI Investment, Physical AI Software Market (MarketIntelo), Digital Twin Market (MarketsandMarkets), Humanoid Robot Market (MarketsandMarkets), Robotaxi Market (Grand View Research), AV Market (Goldman Sachs, Morgan Stanley), Japan AI Plan (Asia Tech Daily), Japan Physical AI Market (Acumen Research), Japan Robotics Intelligence Shift (Nichiboku), NOAA AI Weather Models, Scientific American World Models Revolution, V-JEPA (Meta AI Blog), Sora 2 (OpenAI), OpenAI Video Generation as World Simulators