Mô hình Thế giới (World Models) là gì

"Kỷ nguyên của LLM đang dần kết thúc. Kỷ nguyên của Large World Model bắt đầu" — Bước vào năm 2026, trọng tâm của ngành AI đang bắt đầu dịch chuyển từ dự đoán token tiếp theo trong văn bản sang dự đoán trạng thái tiếp theo của thế giới vật lý. World Models (Mô hình Thế giới) là các hệ thống cho phép AI xây dựng biểu diễn nội tại về cách thức vận hành của thế giới, giúp dự đoán, lập kế hoạch và suy luận về các quy luật vật lý, quan hệ không gian và quan hệ nhân quả. Yann LeCun (nhà sáng lập AMI Labs, cựu Meta FAIR) đã đề xuất kiến trúc JEPA (Joint Embedding Predictive Architecture) trong bài báo năm 2022, và vào tháng 3 năm 2026, ông rời Meta để thành lập AMI Labs với vòng gọi vốn seed trị giá 1,03 tỷ USD (khoảng 154,5 tỷ yên). Jensen Huang (CEO NVIDIA) tuyên bố tại CES 2026 rằng "Khoảnh khắc ChatGPT của Physical AI đã đến," đồng thời cung cấp mô hình nền tảng thế giới "Cosmos" dưới dạng mã nguồn mở. World Labs của Fei-Fei Li (Giáo sư Stanford) đã huy động được tổng cộng 1,23 tỷ USD (khoảng 184,5 tỷ yên), đạt định giá 5 tỷ USD (khoảng 750 tỷ yên). Genie 3 của Google DeepMind tạo ra thế giới 3D nhất quán trong vài phút ở tốc độ 24fps thời gian thực, và CEO Demis Hassabis khẳng định "World Model là điều không thể thiếu để hiện thực hóa AGI." Trong lĩnh vực robotics, Skild AI (định giá trên 14 tỷ USD, tương đương hơn 2,1 nghìn tỷ yên), Physical Intelligence (định giá 5,6 tỷ USD tương đương khoảng 840 tỷ yên, đang đàm phán để vượt 11 tỷ USD) và Figure AI (định giá 39 tỷ USD tương đương khoảng 5,85 nghìn tỷ yên) đã huy động nguồn vốn khổng lồ, đẩy nhanh thương mại hóa robot hình người. Thị trường phần mềm Physical AI dự kiến tăng trưởng từ 2,1 tỷ USD (khoảng 315 tỷ yên) năm 2025 lên 17,2 tỷ USD (khoảng 2,58 nghìn tỷ yên) vào năm 2030 (CAGR 42%). Bài viết này sẽ xem xét toàn diện bức tranh tổng thể về World Models, lịch sử phát triển, sản phẩm và dịch vụ của các công ty hàng đầu, các công nghệ cấu thành, lĩnh vực ứng dụng, dữ liệu thị trường và các xu hướng trong tương lai.

World Models là gì——AI dự đoán "trạng thái vật lý tiếp theo"

World Models (Mô hình thế giới) là hệ thống học biểu diễn nội tại giúp AI hiểu cách thức hoạt động của thế giới vật lý và dự đoán các trạng thái trong tương lai.

Trong khi LLM (Mô hình ngôn ngữ lớn) dự đoán "token (từ) tiếp theo", thì World Models dự đoán "trạng thái vật lý tiếp theo". LLM học các mẫu ngôn ngữ từ dữ liệu văn bản, nhưng về bản chất không thể hiểu được mối quan hệ nhân quả trong thế giới vật lý — lý do tại sao vật thể rơi xuống, điều kiện để chất lỏng tràn ra khỏi cốc, hay trình tự động tác cần thiết để robot mở cửa. World Models học biểu diễn nén của môi trường (không gian tiềm ẩn) và mô phỏng các trạng thái tương lai trong không gian biểu diễn đó, từ đó trao cho AI khả năng "thử nghiệm kết quả trong đầu trước khi hành động".

Con người thực hiện điều này một cách vô thức. Họ dự đoán quỹ đạo của quả bóng trước khi ném, dự đoán chuyển động của các xe khác khi lái xe, và bản năng điều chỉnh góc nghiêng của cốc nước. Đây là năng lực được khoa học nhận thức gọi là "mô hình tư duy" hay "vật lý học trực giác" (intuitive physics), và World Models là nỗ lực tái tạo năng lực này trên máy tính.

Lịch sử phát triển — Từ Dyna đến "Năm khởi đầu của World Model"

Lịch sử của World Models bắt nguồn từ những ngày đầu của học tăng cường.

Năm 1991, Richard Sutton (Giáo sư Đại học Alberta, cha đẻ của học tăng cường) công bố Kiến trúc Dyna. Ông hình thức hóa khái niệm "lập kế hoạch là thử nghiệm mọi thứ trong đầu", đề xuất một kiến trúc tích hợp xen kẽ giữa hành động trong môi trường thực, học hỏi, cập nhật mô hình và lập kế hoạch. Đây trở thành nền tảng của học tăng cường dựa trên mô hình.

Năm 2018, David Ha và Jurgen Schmidhuber (IDSIA) công bố bài báo "World Models", đặt tên chính thức cho lĩnh vực này. Họ kết hợp VAE (bộ mã hóa tự động biến phân) và RNN (mạng nơ-ron hồi quy) để học không giám sát các biểu diễn không gian và thời gian được nén của môi trường, đồng thời chứng minh rằng tác nhân có thể được huấn luyện trong "giấc mơ ảo hóa (hallucinated dream)" của chính nó và chuyển giao sang môi trường thực.

Năm 2022, Yann LeCun (khi đó là VP kiêm Nhà khoa học AI trưởng của Meta FAIR) công bố "A Path Towards Autonomous Machine Intelligence", đề xuất khái niệm JEPA (Kiến trúc Dự đoán Nhúng Chung). Ý tưởng cốt lõi là thực hiện dự đoán trong không gian biểu diễn trừu tượng thay vì không gian pixel, bỏ qua các chi tiết không thể đoán trước để hiểu thế giới ở cấp độ đặc trưng trừu tượng — được cho là gần với cách não sinh vật mô hình hóa môi trường. LeCun công khai tuyên bố rằng "LLM tuyệt đối không thể đạt được AGI" và khẳng định World Models là con đường duy nhất dẫn đến AGI.

Năm 2023, DreamerV3 của Google DeepMind được đăng trên tạp chí Nature. Đây là thuật toán đa năng vượt trội hơn các phương pháp chuyên biệt trên hơn 150 nhiệm vụ đa dạng, chứng minh khả năng học mô hình môi trường với cấu hình duy nhất và cải thiện hành động thông qua các kịch bản tưởng tượng.

Năm 2024 là năm bước ngoặt. Google DeepMind công bố Genie (tháng 2/2024, tạo môi trường 2D tương tác từ một ảnh duy nhất) và Genie 2 (tháng 12/2024, tạo thế giới 3D có thể điều khiển bằng hành động). Fei-Fei Li (Giáo sư Stanford) thành lập World Labs và huy động 230 triệu đô la (khoảng 34,5 tỷ yên). Meta phát hành V-JEPA (dự đoán đặc trưng trừu tượng từ video). Liên minh gồm 20 tổ chức nghiên cứu AI công bố nền tảng mô phỏng robot mã nguồn mở Genesis.

Giai đoạn 2025–2026, World Models bước vào thời kỳ tăng tốc bùng nổ. NVIDIA công bố Cosmos tại CES 2025, Genie 3 của Google DeepMind đạt được khả năng tạo thế giới 3D theo thời gian thực ở 24fps, V-JEPA 2 của Meta đạt lập kế hoạch robot zero-shot chỉ với 62 giờ dữ liệu huấn luyện, Runway công bố GWM-1. Đến tháng 3/2026, LeCun rời Meta sau 12 năm và thành lập AMI Labs với vòng seed trị giá 1,03 tỷ đô la (khoảng 154,5 tỷ yên). Đây là vòng seed lớn nhất trong lịch sử các startup châu Âu, được đánh giá là "canh bạc ngược lớn nhất" với LLM. Cùng tháng đó, LeWorldModel (LeWM) chỉ với 15 triệu tham số đã cho thấy hiệu suất vượt trội hơn các mô hình lớn gấp 10 lần khi được huấn luyện trong vài giờ trên một GPU đơn, gợi mở khả năng dân chủ hóa World Models.

Các công ty và sản phẩm chủ chốt — Hệ sinh thái Physical AI

Hệ sinh thái Physical AI xoay quanh World Models đang hình thành với tốc độ nhanh chóng.

NVIDIA cung cấp nền tảng cho lĩnh vực này thông qua nền tảng Cosmos. Ba mô hình được cung cấp dưới dạng mã nguồn mở: Cosmos-Predict2.5 (mô phỏng trạng thái tương lai của thế giới), Cosmos-Transfer2.5 (mô phỏng thế giới dựa trên đầu vào điều khiển không gian) và Cosmos-Reason2 (hiểu và suy luận về tri thức vật lý thông thường). Omniverse (nền tảng kỹ sinh đôi số) đã được Foxconn, Delta Electronics, Siemens và các công ty khác áp dụng cho mô phỏng nhà máy, trong khi Isaac Sim (mô phỏng robotics) được Alphabet Intrinsic và nhiều đơn vị khác sử dụng. Mô hình nền tảng cho robot hình người GR00T áp dụng kiến trúc Vision-Language-Action (VLA) và được cung cấp cho các công ty robotics như 1X Technologies, Figure AI và Agility Robotics.

Google DeepMind dẫn đầu với Genie 3. Mô hình này tạo ra thế giới 3D theo thời gian thực 24fps ở độ phân giải 720p từ gợi ý văn bản, đồng thời thực hiện tương tác vật thể, tuân thủ quy luật vật lý và dự đoán hành vi của các tác nhân khác. SIMA 2 là tác nhân AI hoạt động bên trong world model này, và phương thức "bootcamp" — trong đó SIMA 2 giải hàng triệu nhiệm vụ trong môi trường do Genie 3 tạo ra — đang được nghiên cứu. CEO Demis Hassabis tuyên bố "cần hai yếu tố để đạt AGI: world model và thí nghiệm tự động", đồng thời tiết lộ ông dành phần lớn thời gian nghiên cứu cho world model.

AMI Labs (thành lập năm 2026, do Yann LeCun sáng lập) chuyên phát triển World Models dựa trên kiến trúc JEPA. Vòng seed trị giá 1,03 tỷ USD (khoảng 154,5 tỷ yên) là nỗ lực thương mại hóa độc lập 12 năm nghiên cứu tại Meta FAIR của LeCun. Công ty khởi động với định giá pre-money 3,5 tỷ USD (khoảng 525 tỷ yên), với Laurent Solly (cựu VP châu Âu của Meta) làm COO và Saining Xie làm CSO. LeWorldModel (LeWM) là mô hình siêu nhẹ chỉ 15 triệu tham số, nhưng mã hóa mỗi khung hình bằng một token duy nhất 192 chiều (giảm 1/200 số lượng token so với phương pháp truyền thống), đạt tốc độ lập kế hoạch nhanh hơn 48 lần.

World Labs (do Fei-Fei Li sáng lập) tập trung vào "Trí tuệ Không gian (Spatial Intelligence)", xây dựng AI có khả năng hiểu và suy luận về thế giới 3D. Sản phẩm đầu tiên "Marble" tạo ra và chỉnh sửa môi trường 3D bền vững từ văn bản, hình ảnh, video và bố cục 3D. Công ty đã huy động tổng cộng 1,23 tỷ USD (khoảng 184,5 tỷ yên) với định giá khoảng 5 tỷ USD (khoảng 750 tỷ yên). AMD, Autodesk (đầu tư 200 triệu USD), NVIDIA và Fidelity là những nhà đầu tư chính.

Runway công bố GWM-1 (ra mắt tháng 12/2025) — một world model có tính đến quy luật vật lý — với tầm nhìn về "world model tổng quát có thể mô phỏng mọi thế giới và trải nghiệm có thể xảy ra". Vào tháng 2/2026, công ty huy động được 315 triệu USD (khoảng 47,25 tỷ yên), đạt định giá 5,3 tỷ USD (khoảng 795 tỷ yên).

Waymo xây dựng Waymo World Model dựa trên Genie 3 của Google DeepMind, sử dụng nó để tạo ra các tình huống "đuôi dài" hiếm gặp nhưng có tầm quan trọng về an toàn. Wayve thúc đẩy mô phỏng lái xe tự động đầu cuối với GAIA-3 (15 tỷ tham số), và cùng với Uber và Nissan lên kế hoạch thử nghiệm vận hành robotaxi tại Tokyo vào nửa cuối năm 2026.

Những gã khổng lồ robot — Những người hưởng lợi lớn nhất từ World Models

Lĩnh vực đang được World Models biến đổi trực tiếp nhất chính là robotics.

Skild AI đã huy động được 1,4 tỷ đô la (khoảng 210 tỷ yên) trong vòng Series C vào tháng 1 năm 2026, với định giá vượt 14 tỷ đô la (hơn 2,1 nghìn tỷ yên). Tổng vốn huy động vượt 2 tỷ đô la. "Skild Brain" là mô hình nền tảng dành cho mọi loại robot, tạo ra khoảng 30 triệu đô la (khoảng 4,5 tỷ yên) doanh thu chỉ trong vài tháng kể từ khi ra mắt vào năm 2025. SoftBank và NVentures là các nhà đầu tư chính.

Physical Intelligence (Pi) đã huy động 600 triệu đô la (khoảng 90 tỷ yên) vào tháng 11 năm 2025, với định giá 5,6 tỷ đô la (khoảng 840 tỷ yên). Vào tháng 3 năm 2026, công ty đang đàm phán vòng gọi vốn mới khoảng 1 tỷ đô la (khoảng 150 tỷ yên), với định giá dự kiến vượt 11 tỷ đô la (hơn 1,65 nghìn tỷ yên). CapitalG, Lux Capital và Jeff Bezos là các nhà đầu tư chính.

Figure AI đã huy động 1 tỷ đô la (khoảng 150 tỷ yên) trong vòng Series C, với định giá 39 tỷ đô la (khoảng 5,85 nghìn tỷ yên). Công ty đang phát triển robot hình người thế hệ thứ ba Figure 03 và lên kế hoạch xuất xưởng 100.000 chiếc trong 4 năm. Intel, NVIDIA và Qualcomm là các nhà đầu tư.

Robot NEO của 1X Technologies (nặng 66 pound, có khả năng nâng hơn 150 pound) được trang bị "1X World Model AI", có giá 20.000 đô la (khoảng 3 triệu yên) và bắt đầu vận chuyển tại Mỹ vào năm 2026. Robot Digit của Agility Robotics là robot hình người duy nhất đã được triển khai thương mại, với thành tích di chuyển hơn 100.000 thùng hàng tại các cơ sở GXO.

Toyota Research Institute (TRI) đã phát triển Diffusion Policy (thành thạo hơn 60 kỹ năng khéo léo) và Unified World Models (UWM, khung tích hợp dữ liệu video và hành động), đồng thời đang đẩy nhanh nghiên cứu thông qua quan hệ đối tác với Boston Dynamics (tháng 10 năm 2024).

Các công nghệ thành phần — Từ JEPA đến 3D Gaussian Splatting

Có nhiều công nghệ nền tảng hỗ trợ World Models.

Cốt lõi của kiến trúc JEPA là thực hiện dự đoán trong không gian biểu diễn thay vì không gian pixel. Bộ mã hóa ánh xạ quan sát khung hình thành biểu diễn tiềm ẩn chiều thấp, trong khi bộ dự đoán mô hình hóa động lực học môi trường trong không gian tiềm ẩn. Trong LeWM, hệ thống bao gồm bộ mã hóa ViT-Tiny (khoảng 5 triệu tham số) và bộ dự đoán Transformer (khoảng 10 triệu tham số), tổng cộng chỉ 15 triệu tham số.

Mô hình dự đoán video hoạt động như một world model ngầm định. OpenAI đã định vị Sora một cách tường minh là "world simulator", xác định quá trình sinh video học các quy luật vật lý từ dữ liệu là một dạng của World Models. Cosmos của NVIDIA và GWM-1 của Runway cũng theo cùng hướng tiếp cận này.

Công nghệ biểu diễn 3D cũng đang tiến hóa nhanh chóng. NeRF (Neural Radiance Fields) biểu diễn cảnh dưới dạng hàm 5D liên tục, trong khi 3D Gaussian Splatting biểu diễn cảnh dưới dạng tập hợp các Gaussian dị hướng. Phương pháp sau cho phép render tốc độ cao và đã trở thành công nghệ chủ đạo trong AR/VR và robotics từ năm 2025 trở đi. GWM (Gaussian World Models) là world model cho thao tác robot dựa trên biểu diễn 3D Gaussian Splatting, hiện thực hóa dự đoán video 3D có điều kiện theo hành động.

Sự đổi mới trong các bộ mô phỏng vật lý cũng không thể bỏ qua. Genesis nhanh hơn 10~80 lần so với các bộ mô phỏng tăng tốc GPU truyền thống, cho phép huấn luyện nhanh hơn thực tế 10.000 lần (nén 10 năm vào 1 giờ). Nó có thể tạo ra cảnh vật, nhiệm vụ, phần thưởng và video chính xác về mặt vật lý từ các prompt ngôn ngữ.

Lĩnh vực ứng dụng — Từ xe tự lái đến bản sao kỹ thuật số

Các ứng dụng của World Models rất đa dạng, với xe tự lái đứng đầu danh sách.

Xe tự lái là lĩnh vực ứng dụng trưởng thành nhất. Waymo World Model được sử dụng để tạo ra các tình huống "đuôi dài" hiếm gặp, trong khi GAIA-3 của Wayve được dùng để đánh giá khả năng lái xe đầu-cuối. Thị trường robotaxi dự kiến sẽ tăng trưởng từ khoảng 2 tỷ USD năm 2024 lên 40–104 tỷ USD vào năm 2030 (CAGR trên 60–90%).

Bản sao kỹ thuật số công nghiệp được dẫn dắt bởi NVIDIA Omniverse. Foxconn, Siemens và Delta Electronics đã áp dụng để mô phỏng toàn bộ nhà máy, phục vụ tối ưu hóa dây chuyền sản xuất, dự đoán sự cố và kiểm chứng thiết kế dây chuyền mới. Thị trường bản sao kỹ thuật số dự kiến mở rộng từ 21–33 tỷ USD năm 2025 lên 49–150 tỷ USD vào năm 2030.

Mô phỏng khoa học chứng kiến NOAA chính thức vận hành mô hình dự báo thời tiết toàn cầu dựa trên AI, đạt được mô phỏng toàn cầu với độ phân giải 2,5 km bằng mô hình ICON (Giải thưởng Gordon Bell 2025). Phương pháp kết hợp vật lý + AI giúp giảm đáng kể chi phí tính toán.

Tạo game và thế giới ảo: Project Genie của Google DeepMind (ra mắt công khai tháng 1 năm 2026) tạo ra các thế giới tương tác từ văn bản, trong khi Marble của World Labs cung cấp khả năng tạo và chỉnh sửa môi trường 3D bền vững.

Góc nhìn từ VC Silicon Valley——"Physical AI là xu hướng mega tiếp theo"

Các VC ở Silicon Valley đang định vị World Models là chủ đề đầu tư "tiếp theo sau LLM".

a16z (Andreessen Horowitz) đã thành lập quỹ mới vào tháng 1 năm 2026, bao gồm 15 tỷ đô la (khoảng 2.250 tỷ yên), đưa tổng tài sản quản lý vượt 90 tỷ đô la. Họ chú trọng vào "khoảng cách triển khai" của Physical AI — nghiên cứu tiên tiến đang tiến nhanh trong khi các robot thực tế được triển khai vẫn còn "cổ điển" — và phân tích rằng chìa khóa là tinh chỉnh từ xây dựng năng lực tổng quát sang các tác vụ cụ thể.

Sequoia Capital đánh giá "có thể thấy những thay đổi mang tính bước ngoặt trong âm thanh, video và robotics", và đã đầu tư vào Skild AI và Physical Intelligence. Họ mời Jim Fan của NVIDIA (Trưởng phòng GEAR Lab) lên podcast để thảo luận về chủ đề "Robots Thinking Fast and Slow".

Khosla Ventures với chính Vinod Khosla tuyên bố "AI sẽ không chỉ biến đổi thế giới kỹ thuật số mà còn cả thế giới vật lý", đồng dẫn đầu vòng Series A trị giá 51 triệu đô la cho BrightAI (Physical AI), và dẫn đầu vòng Series C trị giá 750 triệu đô la cho Waabi (xe tải tự lái). Họ đã nhận thức rõ ràng về tiềm năng của các mô hình AI ngoài LLM.

Trong số 189 unicorn mới năm 2025, có 47 công ty (25%) là doanh nghiệp AI native, và hoạt động gọi vốn liên quan đến world model được xếp hạng trong top 3% trên bảng xếp hạng thị trường của CB Insights.

Quan điểm của những người nổi tiếng——"Con đường duy nhất đến AGI"

Quan điểm của các chuyên gia hàng đầu về World Models cho thấy sự đồng thuận hiếm có.

Yann LeCun (CEO của AMI Labs) giữ lập trường mạnh mẽ nhất. "Sự ám ảnh hiện tại của ngành với LLM là sai lầm. Cuối cùng, chúng sẽ không thể giải quyết nhiều vấn đề quan trọng." Ông lập luận rằng các hệ thống dựa trên JEPA học biểu diễn thế giới bằng cách dự đoán các đặc trưng trừu tượng từ đầu vào cảm giác — một cách tiếp cận gần với não bộ sinh học. Sau 12 năm nghiên cứu tại Meta FAIR, việc ông thành lập công ty độc lập với 1,03 tỷ USD cho thấy chiều sâu của niềm tin này.

Jensen Huang (CEO của NVIDIA) đã tuyên bố tại CES 2026: "Khoảnh khắc ChatGPT của Physical AI đã đến — đây là thời điểm máy móc bắt đầu hiểu, suy luận và hành động trong thế giới thực." Ông cung cấp Cosmos dưới dạng mã nguồn mở và định vị đây là "nhân tố thay đổi cuộc chơi cho robotics và AI công nghiệp."

Demis Hassabis (CEO của Google DeepMind) phát biểu: "Để hiện thực hóa AGI cần hai điều: World Model — AI thực sự hiểu vật lý và không gian; và thí nghiệm tự động — AI tự tay giải quyết các vấn đề cơ bản như vật liệu và phản ứng nhiệt hạch." Ông dự đoán AGI sẽ xuất hiện trong "5 đến 10 năm" nữa.

Fei-Fei Li (Giáo sư Stanford, người sáng lập World Labs) định nghĩa trí thông minh không gian là "khả năng suy luận về cách thế giới 3D vận hành, thay vì chỉ dựa vào dữ liệu 2D," và thúc đẩy các ứng dụng trong game, VFX, VR và robotics với nguồn vốn 1,23 tỷ USD.

Jim Fan (Trưởng nhóm NVIDIA GEAR Lab) dự đoán: "Năm 2026 sẽ là năm đầu tiên Large World Models đặt nền móng cho robotics và vẽ ra con đường mới hướng tới AGI thể chất đa phương thức."

Mô hình Thế giới qua các con số — Thị trường đang mở rộng nhanh chóng

Dữ liệu thị trường liên quan đến World Models/Physical AI đang cho thấy sự tăng trưởng bùng nổ.

Thị trường nền tảng phần mềm Physical AI dự kiến tăng từ 2,1 tỷ USD (khoảng 315 tỷ yên) năm 2025 lên 17,2 tỷ USD (khoảng 2,58 nghìn tỷ yên) vào năm 2030 (CAGR 42%). Thị trường robot hình người sẽ mở rộng từ 1,9–2,9 tỷ USD (khoảng 285–435 tỷ yên) năm 2025 lên 4,0–15,3 tỷ USD (khoảng 600 tỷ – 2,295 nghìn tỷ yên) vào năm 2030. Thị trường kỹ thuật số song sinh (digital twin) sẽ đạt quy mô 49–150 tỷ USD (khoảng 7,35–22,5 nghìn tỷ yên) vào năm 2030.

Định giá doanh nghiệp cũng tăng vọt đáng kinh ngạc. Figure AI (39 tỷ USD), Skild AI (hơn 14 tỷ USD), Physical Intelligence (5,6 tỷ USD → đang đàm phán 11 tỷ USD), Runway (5,3 tỷ USD), World Labs (khoảng 5 tỷ USD), AMI Labs (3,5 tỷ USD) — chỉ trong vòng 2 năm ngắn ngủi từ 2024 đến 2026, hàng loạt unicorn liên quan đến World Models đã xuất hiện dày đặc.

Thị trường Physical AI tại Nhật Bản dự kiến tăng từ 307 triệu USD (khoảng 46 tỷ yên) năm 2025 lên 6,76 tỷ USD (khoảng 1,014 nghìn tỷ yên) vào năm 2035 (CAGR 36,2%). Chính phủ Nhật Bản đã phê duyệt kế hoạch AI quốc gia đầu tiên vào tháng 12 năm 2025, công bố gói hỗ trợ AI trị giá 1 nghìn tỷ yên (6,34 tỷ USD) trong 5 năm kể từ năm tài chính 2026. Nhật Bản — với truyền thống trong lĩnh vực sản xuất và robot — có thể trở thành thị trường ưu tiên cho Physical AI trong quá trình chuyển đổi "từ độ chính xác sang trí tuệ". Trong bối cảnh dự báo thiếu hụt 11 triệu lao động vào năm 2040, nhu cầu về robot là điều không thể tránh khỏi về mặt cấu trúc.

Thách thức — Bức tường cần vượt qua

Tương lai của World Models rất sáng sủa, nhưng vẫn còn những thách thức cần vượt qua.

Chi phí tính toán là nút thắt cổ chai lớn nhất. Transformer và Diffusion Network rất mạnh mẽ nhưng chi phí suy luận cao, mâu thuẫn với yêu cầu điều khiển thời gian thực của robot. Kết quả mô hình 15 triệu tham số của LeWM vượt trội mô hình lớn hơn 10 lần là câu trả lời đầy hứa hẹn cho thách thức này.

Khoảng cách Sim-to-Real — vấn đề policy được huấn luyện trong môi trường mô phỏng bị giảm hiệu suất trong thế giới thực — vẫn là thách thức căn bản. Việc học có thể xảy ra theo hướng "khai thác" các dynamics không chính xác trong môi trường mô phỏng. Các biện pháp đối phó như domain randomization, pipeline Real-to-Sim-to-Real, v.v. đang được nghiên cứu.

Vấn đề về chỉ số đánh giá cũng rất nghiêm trọng. Các chỉ số hiện có như FID, FVD ưu tiên độ trung thực pixel nhưng không đo lường tính nhất quán vật lý, dynamics hay quan hệ nhân quả. Một framework đánh giá tiêu chuẩn dành cho Physical AI vẫn chưa được thiết lập.

Yêu cầu dữ liệu cũng là yếu tố hạn chế. Thiếu các tập dữ liệu quy mô lớn thống nhất trải rộng trên các domain đa dạng trong robotics (điều hướng, thao tác, lái xe tự động, v.v.). Tuy nhiên, các nền tảng tạo dữ liệu tổng hợp như Genesis đang bắt đầu giảm thiểu thách thức này.

Triển vọng tương lai — Sự dịch chuyển trọng tâm từ LLM sang World Models

Các nhà lãnh đạo trong ngành đều lạc quan về tương lai của World Models.

Năm 2026 được định vị là "Năm đầu tiên của World Model". AMI Labs, World Labs chính thức đi vào hoạt động, hiện thực hóa việc tạo thế giới 3D thời gian thực (Genie 3). Hassabis dự đoán rằng "các hệ thống tác nhân sẽ đạt đến mức độ thực sự ấn tượng và đáng tin cậy". Thử nghiệm xe taxi robot tại Tokyo của Wayve/Uber/Nissan được lên kế hoạch vào nửa cuối năm 2026.

Giai đoạn 2027–2028, sản xuất hàng loạt robot hình người sẽ bắt đầu. Kế hoạch xuất xưởng 100.000 đơn vị của Figure AI và việc mở rộng quy mô lên hàng nghìn đơn vị mỗi năm của Agility Robotics sẽ tiến triển mạnh mẽ.

Đến năm 2030, thị trường phần mềm Physical AI sẽ đạt 17,2 tỷ USD, thị trường xe taxi robot đạt 40–104 tỷ USD, và dịch vụ taxi robot sẽ được vận hành tại hơn 200 thành phố.

Xu hướng quan trọng nhất là sự hội tụ giữa LLM và World Models. Sự hợp nhất giữa dự đoán token tiếp theo trong văn bản và dự đoán trạng thái tiếp theo trong thế giới vật lý ngày càng tiến triển, trong khi các mô hình đa phương thức (thị giác + ngôn ngữ + hành động) đang đẩy nhanh sự hội tụ này. Nếu "Khoảnh khắc ChatGPT của Physical AI" theo lời Jensen Huang là đúng, thì năm 2026 sẽ được ghi nhớ là điểm khởi đầu của kỷ nguyên đó.

Tác động đến ngành

Thứ nhất, sự trỗi dậy của World Models đang dịch chuyển trọng tâm nghiên cứu AI từ mô hình văn bản/ngôn ngữ sang sự hiểu biết về thế giới vật lý. Luận điểm của LeCun rằng "sự ám ảnh với LLM là sai lầm" có thể nghe cực đoan, nhưng các khoản đầu tư khổng lồ vào AMI Labs (1,03 tỷ USD), World Labs (1,23 tỷ USD) và Skild AI (hơn 2 tỷ USD) cho thấy thị trường VC đang đạt được sự đồng thuận nhất định với quan điểm này.

Thứ hai, ngành công nghiệp robot đang trở thành bên hưởng lợi lớn nhất từ World Models. Định giá của Figure AI (39 tỷ USD), Skild AI (hơn 14 tỷ USD) và Physical Intelligence (từ 5,6 tỷ USD đang đàm phán lên 11 tỷ USD) đã đạt mức tương đương với các startup LLM. Nếu quá trình thương mại hóa robot hình người tăng tốc vào giai đoạn 2027–2028, cấu trúc lực lượng lao động trong ngành sản xuất, logistics và dịch vụ sẽ thay đổi căn bản.

Thứ ba, các nền tảng như NVIDIA Cosmos, Google DeepMind Genie 3 và Genesis (mã nguồn mở) đang dân chủ hóa cơ sở hạ tầng phát triển World Models, từ đó hạ thấp rào cản gia nhập cho các startup. Việc mô hình siêu nhỏ gọn LeWM với 15 triệu tham số vượt trội hơn các mô hình lớn gấp 10 lần gợi ý khả năng tồn tại của một hướng tiếp cận khác với tư duy "chỉ cần mở rộng quy mô" của LLM.

Thứ tư, Nhật Bản hội tụ đủ các điều kiện để trở thành thị trường ưu tiên cho Physical AI: truyền thống sản xuất và robot, nhu cầu cấu trúc từ tình trạng thiếu hụt 11 triệu lao động, và gói hỗ trợ AI 1 nghìn tỷ yên của chính phủ. Các dấu hiệu cho thấy điều này bao gồm: SoftBank mua lại bộ phận robot của ABB, kế hoạch robotaxi tại Tokyo của Wayve/Uber/Nissan, và số lượng doanh nghiệp Nhật Bản áp dụng NVIDIA Omniverse ngày càng tăng.

Tài liệu tham khảo: Yann LeCun "A Path Towards Autonomous Machine Intelligence" (2022), Ha & Schmidhuber "World Models" (arXiv: 1803.10122, 2018), Sutton Dyna Architecture (ACM, 1991), DreamerV3 (Nature, 2025), LeWorldModel (arXiv: 2603.19312, 2026), AMI Labs $1.03B Seed Round (TechCrunch, 2026/3), AMI Labs LeCun New Venture (MIT Technology Review, 2026/1), NVIDIA Cosmos Launch (NVIDIA Newsroom, CES 2025), NVIDIA Cosmos Major Release (NVIDIA Newsroom, 2026), World Labs $1B Funding (AI Insider, 2026/2), World Labs Marble Launch (TechBuzz), Google DeepMind Genie 2 Blog (2024/12), Google DeepMind Genie 3 Blog (2025/8), Project Genie Public Launch (Google Blog, 2026/1), Waymo World Model Blog (2026/2), Wayve GAIA-3 Launch, Runway $315M Raise (TechCrunch, 2026/2), Runway GWM-1 Release (TechCrunch, 2025/12), Skild AI $1.4B Series C (BusinessWire, 2026/1), Physical Intelligence $600M (Robot Report, 2025/11), Physical Intelligence $11B Talks (Bloomberg, 2026/3), Figure AI $1B Series C (Robot Report), 1X NEO Robot, Agility Robotics 100K Totes, TRI Diffusion Policy & Unified World Models, GR00T N1 Paper (arXiv: 2503.14734), Genesis Open Source (SiliconANGLE, 2024/12), Jensen Huang CES 2026 (Axios), Hassabis World Models & AGI (Humanoids Daily, JA Lookout), Jim Fan Sequoia Podcast, Fei-Fei Li Spatial Intelligence, a16z Physical AI Deployment Gap, a16z Big Ideas 2026, Sequoia AI in 2026, Khosla BrightAI Investment, Physical AI Software Market (MarketIntelo), Digital Twin Market (MarketsandMarkets), Humanoid Robot Market (MarketsandMarkets), Robotaxi Market (Grand View Research), AV Market (Goldman Sachs, Morgan Stanley), Japan AI Plan (Asia Tech Daily), Japan Physical AI Market (Acumen Research), Japan Robotics Intelligence Shift (Nichiboku), NOAA AI Weather Models, Scientific American World Models Revolution, V-JEPA (Meta AI Blog), Sora 2 (OpenAI), OpenAI Video Generation as World Simulators