Apa itu World Models (Model Dunia)

"Era LLM sedang berakhir. Era Large World Model akan dimulai" — Memasuki 2026, pusat gravitasi industri AI mulai bergeser dari prediksi token teks berikutnya menuju prediksi keadaan dunia fisik berikutnya. World Models (model dunia) adalah sistem yang memungkinkan AI membangun representasi internal tentang cara kerja dunia, sehingga dapat memprediksi, merencanakan, dan bernalar mengenai hukum fisika, hubungan spasial, dan hubungan kausal. Yann LeCun (pendiri AMI Labs, mantan Meta FAIR) mengusulkan JEPA (Joint Embedding Predictive Architecture) dalam makalahnya tahun 2022, dan pada Maret 2026 meninggalkan Meta untuk mendirikan AMI Labs dengan seed round senilai 1,03 miliar dolar (sekitar 154,5 miliar yen). Jensen Huang (CEO NVIDIA) mendeklarasikan di CES 2026 bahwa "Momen ChatGPT untuk Physical AI telah tiba," dan menyediakan world foundation model "Cosmos" sebagai open source. World Labs milik Fei-Fei Li (profesor Stanford) telah mengumpulkan total 1,23 miliar dolar (sekitar 184,5 miliar yen) dan mencapai valuasi 5 miliar dolar (sekitar 750 miliar yen). Genie 3 dari Google DeepMind menghasilkan dunia 3D yang konsisten selama beberapa menit secara real-time pada 24fps, dan CEO Demis Hassabis menegaskan bahwa "World model sangat diperlukan untuk mewujudkan AGI." Di bidang robotika, Skild AI (valuasi lebih dari 14 miliar dolar = lebih dari sekitar 2,1 triliun yen), Physical Intelligence (valuasi 5,6 miliar dolar = sekitar 840 miliar yen, sedang dalam negosiasi menuju lebih dari 11 miliar dolar), dan Figure AI (valuasi 39 miliar dolar = sekitar 5,85 triliun yen) telah mengumpulkan dana dalam jumlah besar dan mempercepat komersialisasi robot humanoid. Pasar perangkat lunak Physical AI diproyeksikan tumbuh dari 2,1 miliar dolar (sekitar 315 miliar yen) pada tahun 2025 menjadi 17,2 miliar dolar (sekitar 2,58 triliun yen) pada tahun 2030 (CAGR 42%). Artikel ini secara komprehensif mengkaji gambaran menyeluruh World Models, sejarah perkembangannya, produk dan layanan perusahaan-perusahaan utama, teknologi komponen, bidang aplikasi, data pasar, serta tren ke depan.

Apa itu World Models——AI yang Memprediksi "Keadaan Fisik Berikutnya"

World Models (Model Dunia) adalah sistem yang mempelajari representasi internal bagi AI untuk memahami cara kerja dunia fisik dan memprediksi keadaan masa depan.

Jika LLM (Large Language Model) memprediksi "token (kata) berikutnya", World Models memprediksi "keadaan fisik berikutnya". LLM mempelajari pola bahasa dari data teks, namun tidak dapat secara mendasar memahami hubungan sebab-akibat di dunia fisik — seperti mengapa benda jatuh, kondisi cairan tumpah dari gelas, atau urutan gerakan yang diperlukan robot untuk membuka pintu. World Models mempelajari representasi terkompresi dari lingkungan (ruang laten), lalu dengan mensimulasikan keadaan masa depan dalam ruang representasi tersebut, memberikan AI kemampuan untuk "mencoba hasil di dalam kepala sebelum bertindak".

Manusia melakukan ini secara tidak sadar. Mereka memprediksi lintasan bola sebelum melemparnya, memprediksi gerakan kendaraan lain saat berkendara, dan secara intuitif menyesuaikan sudut kemiringan air dalam gelas. Ini adalah kemampuan yang dalam ilmu kognitif disebut "model mental" atau "intuitive physics (fisika intuitif)", dan World Models adalah upaya untuk mereproduksinya menggunakan komputer.

Sejarah Perkembangan——Dari Dyna menuju "Tahun Pertama Model Dunia"

Sejarah World Models bermula dari masa awal pembelajaran penguatan (reinforcement learning).

Tahun 1991, Richard Sutton (Profesor Universitas Alberta, bapak pembelajaran penguatan) memperkenalkan Arsitektur Dyna. Ia memformalisasi konsep "perencanaan adalah mencoba sesuatu di dalam kepala" dan mengusulkan arsitektur terintegrasi yang menyelingi aksi di lingkungan nyata, pembelajaran, pembaruan model, dan perencanaan. Inilah yang menjadi fondasi pembelajaran penguatan berbasis model.

Tahun 2018, David Ha dan Jurgen Schmidhuber (IDSIA) menerbitkan makalah "World Models" yang memberikan nama definitif bagi bidang ini. Mereka menggabungkan VAE (Variational Autoencoder) dan RNN (Recurrent Neural Network) untuk mempelajari representasi ruang dan waktu yang terkompresi dari lingkungan secara tak terawasi, dan menunjukkan bahwa agen dapat dilatih dalam "mimpi (hallucinated dream)" mereka sendiri lalu dipindahkan ke lingkungan nyata.

Tahun 2022, Yann LeCun (saat itu VP Meta FAIR sekaligus Chief AI Scientist) menerbitkan "A Path Towards Autonomous Machine Intelligence" dan mencetuskan konsep JEPA (Joint Embedding Predictive Architecture). Ide intinya adalah melakukan prediksi bukan di ruang piksel, melainkan di ruang representasi abstrak — memahami dunia pada tingkat fitur abstrak dengan mengabaikan detail yang tidak dapat diprediksi — yang dianggap mendekati cara otak biologis memodelkan lingkungan. LeCun secara terbuka menyatakan "LLM tidak akan pernah bisa mencapai AGI" dan berargumen bahwa World Models adalah satu-satunya jalan menuju AGI.

Tahun 2023, DreamerV3 dari Google DeepMind dipublikasikan di jurnal Nature. Ini merupakan algoritma serbaguna yang melampaui metode-metode khusus dalam lebih dari 150 tugas beragam, mendemonstrasikan kemampuan mempelajari model lingkungan dengan satu konfigurasi tunggal dan menyempurnakan perilaku melalui skenario yang dibayangkan.

Tahun 2024 menjadi tahun titik balik. Google DeepMind meluncurkan Genie (Februari 2024, menghasilkan lingkungan 2D interaktif dari satu gambar) dan Genie 2 (Desember 2024, menghasilkan dunia 3D yang dapat dikontrol dengan aksi). Fei-Fei Li (Profesor Stanford) mendirikan World Labs dan berhasil mengumpulkan dana sebesar 230 juta dolar (sekitar 34,5 miliar yen). Meta merilis V-JEPA (prediksi fitur abstrak dari video). Sebuah konsorsium yang terdiri dari 20 lembaga riset AI menerbitkan Genesis, platform simulasi robotika sumber terbuka.

Tahun 2025–2026, World Models memasuki fase akselerasi eksponensial. NVIDIA memperkenalkan Cosmos di CES 2025, Genie 3 dari Google DeepMind mewujudkan pembuatan dunia 3D real-time pada 24fps, V-JEPA 2 dari Meta mencapai perencanaan robot zero-shot hanya dengan 62 jam data pelatihan, dan Runway meluncurkan GWM-1. Kemudian pada Maret 2026, LeCun meninggalkan Meta untuk pertama kalinya dalam 12 tahun dan mendirikan AMI Labs dengan putaran seed senilai 1,03 miliar dolar (sekitar 154,5 miliar yen). Ini merupakan putaran seed terbesar dalam sejarah startup Eropa dan disebut sebagai "taruhan berlawanan terbesar" terhadap LLM. Pada bulan yang sama, LeWorldModel (LeWM) dengan hanya 15 juta parameter menunjukkan performa yang melampaui model 10 kali lebih besar dengan pelatihan beberapa jam pada satu GPU, mengisyaratkan potensi demokratisasi World Models.

Perusahaan dan Produk Utama——Ekosistem Physical AI

Ekosistem Physical AI yang berpusat pada World Models sedang terbentuk dengan pesat.

NVIDIA menyediakan fondasi di bidang ini melalui platform Cosmos. Tiga model disediakan secara open-source: Cosmos-Predict2.5 (mensimulasikan kondisi masa depan dunia), Cosmos-Transfer2.5 (simulasi dunia berdasarkan input kontrol spasial), dan Cosmos-Reason2 (pemahaman dan penalaran akal sehat fisika). Omniverse (platform digital twin) telah diadopsi oleh Foxconn, Delta Electronics, Siemens, dan lainnya untuk simulasi pabrik, sementara Isaac Sim (simulasi robotik) dimanfaatkan oleh Alphabet Intrinsic dan perusahaan lainnya. Foundation model untuk robot humanoid GR00T menggunakan arsitektur Vision-Language-Action (VLA) dan disediakan untuk perusahaan robotik seperti 1X Technologies, Figure AI, dan Agility Robotics.

Google DeepMind memimpin di garis terdepan dengan Genie 3. Model ini mampu menghasilkan dunia 3D secara real-time pada 24fps beresolusi 720p dari prompt teks, sekaligus mewujudkan interaksi objek, hukum fisika, dan prediksi perilaku agen lain. SIMA 2 adalah agen AI yang beroperasi di dalam world model ini, dan sedang diteliti metode "bootcamp" di mana SIMA 2 memecahkan jutaan tugas dalam lingkungan yang dihasilkan oleh Genie 3. CEO Demis Hassabis menyatakan bahwa "dua hal yang diperlukan untuk mewujudkan AGI adalah world model dan eksperimen otomatis," dan mengungkapkan bahwa sebagian besar waktu penelitiannya dicurahkan untuk world model.

AMI Labs (didirikan tahun 2026 oleh Yann LeCun) berspesialisasi dalam pengembangan World Models berdasarkan arsitektur JEPA. Putaran seed senilai USD 1,03 miliar (sekitar 154,5 miliar yen) merupakan upaya komersialisasi penelitian 12 tahun LeCun di Meta FAIR sebagai perusahaan independen. Dengan merekrut Laurent Solly (VP Eropa Meta) sebagai COO dan Saining Xie sebagai CSO, perusahaan ini memulai dengan valuasi pre-money USD 3,5 miliar (sekitar 525 miliar yen). LeWorldModel (LeWM) adalah model yang sangat ringan dengan hanya 15 juta parameter, namun berhasil melakukan encoding dengan satu token tunggal berdimensi 192 per frame (1/200 dari jumlah token konvensional) dan mencapai peningkatan kecepatan perencanaan sebesar 48 kali lipat.

World Labs (didirikan oleh Fei-Fei Li) berfokus pada "Spatial Intelligence" dan membangun AI yang mampu memahami serta menalar dunia 3D. Produk pertama mereka, "Marble," menghasilkan dan mengedit lingkungan 3D yang persisten dari teks, gambar, video, dan tata letak 3D. Perusahaan ini telah menghimpun total dana USD 1,23 miliar (sekitar 184,5 miliar yen) dengan valuasi sekitar USD 5 miliar (sekitar 750 miliar yen). Investor utamanya adalah AMD, Autodesk (investasi USD 200 juta), NVIDIA, dan Fidelity.

Runway mengumumkan world model yang mempertimbangkan hukum fisika dengan GWM-1 (diumumkan Desember 2025), dan mengusung visi "world model serba guna yang dapat mensimulasikan setiap dunia dan pengalaman yang mungkin ada." Pada Februari 2026, mereka berhasil menghimpun dana USD 315 juta (sekitar 47,25 miliar yen), dengan valuasi mencapai USD 5,3 miliar (sekitar 795 miliar yen).

Waymo membangun Waymo World Model berbasis Genie 3 dari Google DeepMind dan memanfaatkannya untuk menghasilkan skenario "long-tail" yang langka namun kritis terhadap keselamatan. Wayve mendorong simulasi mengemudi otonom end-to-end dengan GAIA-3 (15 miliar parameter), dan bersama Uber serta Nissan berencana menjalankan uji coba robotaxi di Tokyo pada paruh kedua tahun 2026.

Para Raksasa Robotika——Penerima Manfaat Terbesar dari World Models

Evolusi World Models paling langsung mengubah industri robotika.

Skild AI berhasil mengumpulkan $1,4 miliar (sekitar 210 miliar yen) dalam putaran Seri C pada Januari 2026, dengan valuasi melebihi $14 miliar (lebih dari 2,1 triliun yen). Total pendanaan kumulatif melampaui $2 miliar. "Skild Brain" adalah model fondasi untuk semua jenis robot, yang menghasilkan pendapatan sekitar $30 juta (sekitar 4,5 miliar yen) dari nol dalam beberapa bulan pada 2025. SoftBank dan NVentures adalah investor utamanya.

Physical Intelligence (Pi) mengumpulkan $600 juta (sekitar 90 miliar yen) pada November 2025 dengan valuasi $5,6 miliar (sekitar 840 miliar yen). Pada Maret 2026, perusahaan ini sedang dalam pembicaraan putaran baru senilai sekitar $1 miliar (sekitar 150 miliar yen), dengan valuasi yang diperkirakan melebihi $11 miliar (lebih dari 1,65 triliun yen). CapitalG, Lux Capital, dan Jeff Bezos adalah investor utamanya.

Figure AI mengumpulkan $1 miliar (sekitar 150 miliar yen) dalam Seri C dengan valuasi $39 miliar (sekitar 5,85 triliun yen). Perusahaan ini mengembangkan humanoid generasi ketiga, Figure 03, dengan rencana pengiriman 100.000 unit dalam empat tahun. Intel, NVIDIA, dan Qualcomm turut berinvestasi.

Robot NEO dari 1X Technologies (berat 66 pon, kemampuan mengangkat lebih dari 150 pon) dilengkapi dengan "1X World Model AI" dan akan mulai dikirim ke Amerika Serikat pada 2026 dengan harga $20.000 (sekitar 3 juta yen). Robot Digit dari Agility Robotics adalah satu-satunya robot humanoid yang telah digunakan secara komersial, dengan rekam jejak memindahkan lebih dari 100.000 tote di fasilitas GXO.

Toyota Research Institute (TRI) mengembangkan Diffusion Policy (menguasai lebih dari 60 keterampilan ketangkasan) dan Unified World Models (UWM, kerangka integrasi data video dan aksi), serta mempercepat penelitian melalui kemitraan dengan Boston Dynamics (Oktober 2024).

Teknologi Elemen — Dari JEPA hingga 3D Gaussian Splatting

Teknologi-teknologi inti yang mendukung World Models sangatlah beragam.

Arsitektur JEPA berpusat pada melakukan prediksi di ruang representasi, bukan di ruang piksel. Encoder memetakan observasi frame ke representasi laten berdimensi rendah, sementara predictor memodelkan dinamika lingkungan di ruang laten. Pada LeWM, encoder menggunakan ViT-Tiny (sekitar 5 juta parameter) dan predictor menggunakan Transformer (sekitar 10 juta parameter), dengan total hanya 15 juta parameter.

Model prediksi video berfungsi sebagai world model implisit. OpenAI secara eksplisit memposisikan Sora sebagai "world simulator" dan mendefinisikan proses pembelajaran hukum fisika dari data melalui generasi video sebagai salah satu bentuk World Models. Cosmos dari NVIDIA dan GWM-1 dari Runway menggunakan pendekatan yang sama.

Teknologi representasi 3D juga berkembang dengan pesat. NeRF (Neural Radiance Fields) merepresentasikan scene sebagai fungsi 5D kontinu, sedangkan 3D Gaussian Splatting merepresentasikan scene sebagai kumpulan Gaussian anisotropik. Pendekatan yang terakhir memungkinkan rendering cepat dan telah menjadi teknologi utama dalam AR/VR serta robotika sejak tahun 2025. GWM (Gaussian World Models) adalah world model untuk manipulasi robot berbasis representasi 3D Gaussian Splatting, yang mewujudkan prediksi video 3D berkondisi aksi.

Inovasi pada physics engine pun tidak boleh diabaikan. Genesis beroperasi 10 hingga 80 kali lebih cepat dibandingkan simulator berakselerasi GPU konvensional, memungkinkan pelatihan 10.000 kali lebih cepat dari dunia nyata (memadatkan 10 tahun menjadi 1 jam). Genesis mampu menghasilkan scene, task, reward, serta video yang akurat secara fisik dari prompt bahasa.

Bidang Aplikasi——Dari Kendaraan Otonom hingga Digital Twin

Penerapan World Models sangat beragam, dengan kendaraan otonom sebagai yang paling terdepan.

Kendaraan otonom adalah bidang aplikasi yang paling matang. Waymo World Model dimanfaatkan untuk menghasilkan skenario "long-tail" yang jarang terjadi, sementara GAIA-3 dari Wayve digunakan untuk evaluasi mengemudi end-to-end. Pasar robotaxi diproyeksikan tumbuh dari sekitar 2 miliar dolar (sekitar 300 miliar yen) pada 2024 menjadi 40–104 miliar dolar (sekitar 6 triliun–15,6 triliun yen) pada 2030 (CAGR lebih dari 60–90%).

Digital twin industri didorong oleh NVIDIA Omniverse. Foxconn, Siemens, dan Delta Electronics telah mengadopsinya untuk simulasi seluruh pabrik, dan memanfaatkannya dalam optimasi lini produksi, prediksi kegagalan, serta verifikasi desain lini baru. Pasar digital twin diperkirakan akan berkembang dari 21–33 miliar dolar (sekitar 3,15 triliun–4,95 triliun yen) pada 2025 menjadi 49–150 miliar dolar (sekitar 7,35 triliun–22,5 triliun yen) pada 2030.

Simulasi ilmiah melihat NOAA mulai mengoperasikan secara penuh model prediksi cuaca global berbasis AI, dan mencapai simulasi global dengan resolusi 2,5 km menggunakan model ICON (Penghargaan Gordon Bell 2025). Pendekatan hibrida fisika+AI ini secara signifikan mengurangi biaya komputasi.

Pembuatan game dan dunia virtual mencakup Project Genie dari Google DeepMind (diluncurkan untuk umum pada Januari 2026) yang menghasilkan dunia interaktif dari teks, serta Marble dari World Labs yang menyediakan pembuatan dan pengeditan lingkungan 3D yang persisten.

Perspektif VC Silicon Valley——"Physical AI adalah Megatren Berikutnya"

VC Silicon Valley memposisikan World Models sebagai tema investasi "setelah LLM berikutnya".

a16z (Andreessen Horowitz) membentuk dana baru senilai 15 miliar dolar (sekitar 2,25 triliun yen) pada Januari 2026, sehingga aset yang dikelola melampaui 90 miliar dolar. Mereka menyoroti "kesenjangan penerapan" dalam Physical AI——di mana riset mutakhir berkembang pesat, namun robot yang benar-benar digunakan di lapangan masih bersifat "klasik"——dan menganalisis bahwa kunci utamanya adalah fine-tuning dari pembangunan kemampuan umum menuju tugas-tugas spesifik.

Sequoia Capital menilai bahwa "perubahan step-function terlihat dalam suara, video, dan robotik", serta berinvestasi di Skild AI dan Physical Intelligence. Mereka juga mengundang Jim Fan dari NVIDIA (Kepala GEAR Lab) ke dalam podcast untuk mendiskusikan tema "Robots Thinking Fast and Slow".

Khosla Ventures dengan Vinod Khosla sendiri menyatakan bahwa "AI tidak hanya mengubah dunia digital, tetapi juga dunia fisik", memimpin bersama Seri A senilai 51 juta dolar untuk BrightAI (Physical AI), dan memimpin Seri C senilai 750 juta dolar untuk Waabi (truk otonom). Mereka secara jelas mengakui potensi model AI di luar LLM.

Dari 189 unicorn baru pada tahun 2025, 47 perusahaan (25%) adalah perusahaan berbasis AI native, dan pendanaan terkait world model menempati peringkat 3% teratas dalam peringkat pasar CB Insights.

Pandangan Tokoh Terkemuka——"Satu-satunya Jalan Menuju AGI"

Pandangan para tokoh terkemuka mengenai World Models menunjukkan kesepakatan yang luar biasa.

Yann LeCun (CEO AMI Labs) mengambil posisi yang paling tegas. "Obsesi industri saat ini terhadap LLM adalah keliru. Pada akhirnya, mereka tidak dapat memecahkan banyak masalah penting." Sistem berbasis JEPA mempelajari representasi dunia dengan memprediksi fitur abstrak dari input sensoris — ia berargumen bahwa ini adalah pendekatan yang lebih mendekati cara kerja otak biologis. Kepergiannya dari Meta FAIR setelah 12 tahun penelitian, dengan nilai 1,03 miliar dolar, mencerminkan kedalaman keyakinannya.

Jensen Huang (CEO NVIDIA) mendeklarasikan di CES 2026: "Momen ChatGPT untuk Physical AI telah tiba — ini adalah saat mesin mulai memahami, bernalar, dan bertindak di dunia nyata." Ia menyediakan Cosmos sebagai open source dan memposisikannya sebagai "pengubah permainan untuk robotika dan AI industri."

Demis Hassabis (CEO Google DeepMind) menyatakan: "Untuk mewujudkan AGI, dua hal diperlukan. World model — agar AI benar-benar memahami fisika dan ruang. Dan eksperimentasi otomatis — agar AI dapat memecahkan masalah mendasar seperti material dan fusi nuklir secara langsung." Ia memperkirakan AGI akan tercapai dalam "5 hingga 10 tahun."

Fei-Fei Li (Profesor Stanford, pendiri World Labs) mendefinisikan kecerdasan spasial sebagai "kemampuan untuk bernalar tentang bagaimana dunia 3D bekerja, alih-alih bergantung pada data 2D," dan mendorong penerapannya di bidang game, VFX, VR, dan robotika dengan pendanaan senilai 1,23 miliar dolar.

Jim Fan (Kepala NVIDIA GEAR Lab) memprediksi bahwa "2026 akan menjadi tahun pertama di mana Large World Models membangun fondasi robotika dan merintis jalur baru menuju AGI fisik yang multimodal."

World Models dalam Angka——Pasar yang Berkembang Pesat

Data pasar terkait World Models/Physical AI menunjukkan ekspansi yang pesat.

Pasar platform perangkat lunak Physical AI diperkirakan akan tumbuh dari 2,1 miliar dolar (sekitar 315 miliar yen) pada 2025 menjadi 17,2 miliar dolar (sekitar 2,58 triliun yen) pada 2030 (CAGR 42%). Pasar robot humanoid akan berkembang dari 1,9–2,9 miliar dolar (sekitar 285–435 miliar yen) pada 2025 menjadi 4,0–15,3 miliar dolar (sekitar 600 miliar–2,295 triliun yen) pada 2030. Pasar digital twin diproyeksikan mencapai skala 49–150 miliar dolar (sekitar 7,35–22,5 triliun yen) pada 2030.

Lonjakan valuasi perusahaan pun sangat mencolok. Figure AI (39 miliar dolar), Skild AI (lebih dari 14 miliar dolar), Physical Intelligence (5,6 miliar dolar → sedang dalam negosiasi 11 miliar dolar), Runway (5,3 miliar dolar), World Labs (sekitar 5 miliar dolar), AMI Labs (3,5 miliar dolar)——hanya dalam 2 tahun antara 2024 hingga 2026, unicorn-unicorn terkait World Models bermunculan dengan pesat.

Pasar Physical AI Jepang diperkirakan akan tumbuh dari 307 juta dolar (sekitar 46 miliar yen) pada 2025 menjadi 6,76 miliar dolar (sekitar 1,014 triliun yen) pada 2035 (CAGR 36,2%). Pemerintah Jepang menyetujui rencana dasar AI nasional pertamanya pada Desember 2025, dan mengumumkan paket dukungan AI senilai 1 triliun yen (6,34 miliar dolar) selama 5 tahun mulai tahun anggaran 2026. Jepang, dengan tradisi manufaktur dan robotikanya, berpotensi menjadi pasar prioritas Physical AI dalam transisi "dari presisi menuju kecerdasan". Di tengah prediksi kekurangan 11 juta tenaga kerja pada 2040, permintaan terhadap robotika secara struktural tidak dapat dihindari.

Tantangan — Hambatan yang Harus Diatasi

Masa depan World Models sangat cerah, namun terdapat pula tantangan yang harus diatasi.

Biaya komputasi adalah hambatan terbesar. Transformer dan Diffusion Network memang powerful, namun biaya inferensinya tinggi dan bertentangan dengan kebutuhan kontrol real-time pada robot. Pencapaian model 15 juta parameter milik LeWM yang melampaui model 10 kali lebih besar merupakan jawaban menjanjikan atas tantangan ini.

Sim-to-Real Gap——masalah penurunan performa kebijakan yang dilatih dalam simulasi ketika diterapkan di dunia nyata——tetap menjadi tantangan mendasar. Pembelajaran yang "mengeksploitasi" dinamika tidak akurat dalam simulasi dapat terjadi. Berbagai countermeasure seperti domain randomization dan pipeline Real-to-Sim-to-Real sedang diteliti.

Masalah metrik evaluasi juga serius. Metrik yang ada seperti FID dan FVD lebih menekankan kesetiaan piksel, namun tidak mengukur konsistensi fisik, dinamika, maupun hubungan kausalitas. Kerangka evaluasi standar untuk Physical AI belum terbentuk.

Kebutuhan data juga menjadi faktor pembatas. Terdapat kekurangan dataset berskala besar yang terpadu yang mencakup berbagai domain robotika (navigasi, manipulasi, kendaraan otonom, dll.). Namun, platform pembuatan data sintetis seperti Genesis mulai meringankan tantangan ini.

Prospek ke Depan — Pergeseran Titik Berat dari LLM ke World Models

Para pemimpin industri optimis tentang masa depan World Models.

2026 diposisikan sebagai "tahun kelahiran World Model". AMI Labs dan World Labs mulai beroperasi penuh, dengan terwujudnya generasi dunia 3D secara real-time (Genie 3). Hassabis memprediksi bahwa "sistem berbasis agen akan mencapai tingkat yang benar-benar mengesankan dan dapat diandalkan". Uji coba robotaxi di Tokyo oleh Wayve/Uber/Nissan direncanakan pada paruh kedua 2026.

2027–2028, produksi massal robot humanoid akan dimulai. Rencana pengiriman 100.000 unit oleh Figure AI dan ekspansi Agility Robotics ke skala ribuan unit per tahun terus berkembang.

Pada 2030, pasar perangkat lunak Physical AI diperkirakan mencapai 17,2 miliar dolar, pasar robotaxi antara 40 hingga 104 miliar dolar, dengan layanan robotaxi yang beroperasi di lebih dari 200 kota.

Tren terpenting adalah konvergensi LLM dan World Models. Penggabungan antara prediksi token berikutnya dalam teks dan prediksi keadaan fisik berikutnya semakin berkembang, dan model multimodal (visual + bahasa + tindakan) mempercepat konvergensi ini. Jika "momen ChatGPT untuk Physical AI" yang disampaikan Jensen Huang terbukti benar, maka 2026 akan dikenang sebagai titik awalnya.

Dampak pada Industri

Pertama, kebangkitan World Models sedang menggeser pusat gravitasi penelitian AI dari model teks/bahasa menuju pemahaman dunia fisik. Klaim LeCun bahwa "obsesi terhadap LLM adalah sebuah kesalahan" mungkin terdengar ekstrem, namun investasi besar ke AMI Labs ($1,03 miliar), World Labs ($1,23 miliar), dan Skild AI (lebih dari $2 miliar) menunjukkan bahwa pasar VC telah membentuk konsensus tertentu atas pandangan ini.

Kedua, industri robotika sedang menjadi penerima manfaat terbesar dari World Models. Valuasi Figure AI ($39 miliar), Skild AI (lebih dari $14 miliar), dan Physical Intelligence ($5,6 miliar → sedang dalam negosiasi $11 miliar) telah mencapai level yang setara dengan startup LLM. Jika komersialisasi robot humanoid benar-benar dipercepat pada 2027–2028, struktur tenaga kerja di sektor manufaktur, logistik, dan jasa akan berubah secara fundamental.

Ketiga, platform seperti NVIDIA Cosmos, Google DeepMind Genie 3, dan Genesis (open source) mendemokratisasi fondasi pengembangan World Models dan menurunkan hambatan masuk bagi startup. Fakta bahwa model super-ringan seperti LeWM dengan 15 juta parameter mengungguli model yang 10 kali lebih besar mengisyaratkan kemungkinan pendekatan yang berbeda dari paradigma "scaling semata" pada LLM.

Keempat, Jepang memiliki semua kondisi yang diperlukan untuk menjadi pasar prioritas bagi Physical AI: warisan manufaktur dan robotika, permintaan struktural berupa kekurangan 11 juta tenaga kerja, dan dukungan pemerintah senilai 1 triliun yen untuk AI. Akuisisi divisi robotika ABB oleh SoftBank, rencana robotaxi Tokyo oleh Wayve/Uber/Nissan, dan meningkatnya perusahaan Jepang yang mengadopsi NVIDIA Omniverse merupakan sinyal nyata dari tren ini.

Referensi: Yann LeCun "A Path Towards Autonomous Machine Intelligence" (2022), Ha & Schmidhuber "World Models" (arXiv: 1803.10122, 2018), Sutton Dyna Architecture (ACM, 1991), DreamerV3 (Nature, 2025), LeWorldModel (arXiv: 2603.19312, 2026), AMI Labs $1.03B Seed Round (TechCrunch, 2026/3), AMI Labs LeCun New Venture (MIT Technology Review, 2026/1), NVIDIA Cosmos Launch (NVIDIA Newsroom, CES 2025), NVIDIA Cosmos Major Release (NVIDIA Newsroom, 2026), World Labs $1B Funding (AI Insider, 2026/2), World Labs Marble Launch (TechBuzz), Google DeepMind Genie 2 Blog (2024/12), Google DeepMind Genie 3 Blog (2025/8), Project Genie Public Launch (Google Blog, 2026/1), Waymo World Model Blog (2026/2), Wayve GAIA-3 Launch, Runway $315M Raise (TechCrunch, 2026/2), Runway GWM-1 Release (TechCrunch, 2025/12), Skild AI $1.4B Series C (BusinessWire, 2026/1), Physical Intelligence $600M (Robot Report, 2025/11), Physical Intelligence $11B Talks (Bloomberg, 2026/3), Figure AI $1B Series C (Robot Report), 1X NEO Robot, Agility Robotics 100K Totes, TRI Diffusion Policy & Unified World Models, GR00T N1 Paper (arXiv: 2503.14734), Genesis Open Source (SiliconANGLE, 2024/12), Jensen Huang CES 2026 (Axios), Hassabis World Models & AGI (Humanoids Daily, JA Lookout), Jim Fan Sequoia Podcast, Fei-Fei Li Spatial Intelligence, a16z Physical AI Deployment Gap, a16z Big Ideas 2026, Sequoia AI in 2026, Khosla BrightAI Investment, Physical AI Software Market (MarketIntelo), Digital Twin Market (MarketsandMarkets), Humanoid Robot Market (MarketsandMarkets), Robotaxi Market (Grand View Research), AV Market (Goldman Sachs, Morgan Stanley), Japan AI Plan (Asia Tech Daily), Japan Physical AI Market (Acumen Research), Japan Robotics Intelligence Shift (Nichiboku), NOAA AI Weather Models, Scientific American World Models Revolution, V-JEPA (Meta AI Blog), Sora 2 (OpenAI), OpenAI Video Generation as World Simulators