Từ AI kỹ thuật số đến "AI vật lý" ── Lý do ngành công nghiệp đột ngột thu hút sự chú ý và quy mô của nó
Từ cuối năm 2025 đến nửa đầu năm 2026, các cuộc trò chuyện trong cộng đồng nhà đầu tư ở Silicon Valley đã nhanh chóng chuyển hướng từ câu hỏi "đặt cược vào gì sau LLM?" sang "đặt cược vào phần nào trong stack của Physical AI?". Theo nhiều tờ báo công nghệ dẫn số liệu tổng hợp từ PitchBook và Crunchbase — hai công ty nghiên cứu thị trường venture capital hàng đầu — đầu tư vào lĩnh vực robot hình người đã tăng vọt từ 239 triệu USD (khoảng 37 tỷ yên) năm 2022 lên khoảng 3,7 tỷ USD (khoảng 573,5 tỷ yên) năm 2025, và chỉ riêng vài tháng đầu năm 2026 đã có 2,37 tỷ USD (khoảng 367,4 tỷ yên) được rót qua 11 vòng gọi vốn. Crunchbase cho biết trong tổng vốn đầu tư mạo hiểm toàn cầu Q1 2026 đạt 300 tỷ USD (khoảng 46,5 nghìn tỷ yên), AI chiếm tới 80%, trong đó AI hoạt động trong không gian vật lý — hay còn gọi là Physical AI — là động lực dẫn dắt các vòng gọi vốn lớn mới.
Các dự báo về quy mô thị trường có sự chênh lệch đáng kể tùy theo tổ chức nghiên cứu, nhưng ước tính do Goldman Sachs công bố cuối năm 2024 và liên tục cập nhật sau đó đã trở thành chuẩn mực tham chiếu của ngành. Công ty này điều chỉnh TAM (Tổng thị trường có thể tiếp cận) của robot hình người toàn cầu vào năm 2035 lên 38 tỷ USD (khoảng 5,89 nghìn tỷ yên) với sản lượng xuất xưởng 1,4 triệu chiếc, đồng thời phản ánh mức giảm 40% chi phí sản xuất so với năm trước. Adam Jonas và nhóm nghiên cứu công nghệ của Morgan Stanley còn lạc quan hơn, đưa ra dự báo doanh thu năm 2050 đạt 7,5 nghìn tỷ USD (khoảng 1.162 nghìn tỷ yên), riêng TAM bán dẫn cho robot hình người có thể chạm mốc 305 tỷ USD (khoảng 47,3 nghìn tỷ yên) vào năm 2045. Nghiên cứu toàn cầu của Bank of America thậm chí còn táo bạo hơn khi dự đoán "đến năm 2060, số người sở hữu robot hình người sẽ vượt qua số người sở hữu ô tô", phác thảo kịch bản tổng sản lượng tiêu thụ lũy kế lên tới 3 tỷ chiếc. Khoảng cách hơn 250 lần giữa dự báo thận trọng "thị trường Physical AI đạt 15 tỷ USD năm 2026, tăng trưởng kép hàng năm 47,2% đến năm 2032" của báo cáo MarketsandMarkets phiên bản 2026 và kịch bản cực kỳ lạc quan "386 tỷ USD năm 2026" theo phạm vi định nghĩa mở rộng của Future Markets Inc. phần lớn xuất phát từ sự khác biệt về định nghĩa: liệu "Physical AI" được hiểu theo nghĩa tập trung vào phần cứng, hay bao gồm toàn bộ hệ thống trong nông nghiệp, y tế, quốc phòng, logistics — tức AI như một "môi trường" bao trùm.
Vậy tại sao nguồn vốn lại đổ vào ồ ạt như vậy vào thời điểm này? Câu trả lời chung của các GP hàng đầu ở Silicon Valley hội tụ ở ba điểm. Thứ nhất, các mô hình VLA (Vision-Language-Action) đa năng đang phát triển năng lực với tốc độ tương tự như GPT-3 lên GPT-4, và trong vòng một năm từ π0 đến π0.7 của Physical Intelligence, "khả năng tổng quát hóa sang các thân thể (embodiment) khác nhau" đã trở thành hiện thực. Thứ hai, chi phí sản xuất đang giảm mạnh — theo Goldman Sachs, chi phí sản xuất mỗi chiếc đã giảm 40% từ mức 50.000–250.000 USD (khoảng 7,75–38,75 triệu yên) năm trước xuống còn 30.000–150.000 USD (khoảng 4,65–23,25 triệu yên), đưa "ngưỡng có lãi 20.000–50.000 USD (khoảng 3,1–7,75 triệu yên)" mà McKinsey chỉ ra vào tầm ngắm. Thứ ba, việc Atlas của Boston Dynamics (thuộc Hyundai Motor), Optimus của Tesla và Figure 03 của Figure AI đồng loạt được xác nhận "không chỉ dừng ở demo mà sẽ bước vào dây chuyền sản xuất hàng loạt" vào năm 2026 đã đẩy nhanh thời điểm tới hạn chuyển từ "PoC sang nền tảng" một cách đáng kể.
Những nhân vật chính của robot hình người: Figure AI, 1X, Apptronik, Boston Dynamics
Tính đến năm 2026, công ty humanoid thuần túy huy động được lượng vốn lớn nhất là Figure AI. Công ty này đã hoàn tất đợt gọi vốn Series C vào tháng 9 năm 2025 với hơn 1 tỷ USD, đạt mức định giá post-money 39 tỷ USD. Dẫn dắt vòng này là Parkway Venture Capital, với sự tham gia của Brookfield Asset Management, NVIDIA, Macquarie Capital, Intel Capital, Align Ventures, Tamarack Global, LG Technology Ventures, Salesforce, T-Mobile Ventures và Qualcomm Ventures. Tổng vốn huy động lũy kế đạt 1,9 tỷ USD. Nhà sáng lập Brett Adcock (cựu Archer Aviation, cựu Vettery) đã kết thúc hợp tác ban đầu với OpenAI vào tháng 2 năm 2025, chuyển hoàn toàn sang mô hình VLA nội bộ "Helix". Tại nhà máy Spartanburg của BMW, robot Figure 02 đã tải hơn 90.000 linh kiện trong 11 tháng, góp phần sản xuất hơn 30.000 chiếc X3, vượt 1.250 giờ hoạt động và đạt độ chính xác 99%. Robot thế hệ tiếp theo Figure 03 bắt đầu sản xuất tại cơ sở tự chế "BotQ" từ tháng 1 năm 2026, và theo The AI Insider, đến tháng 5 đã đạt tốc độ 1 robot/giờ, xuất xưởng tổng cộng hơn 350 chiếc.
1X Technologies — công ty xuất xứ Na Uy, nổi tiếng là danh mục đầu tư của OpenAI Startup Fund — đã mở đặt hàng trước robot humanoid gia đình "NEO" với giá 20.000 USD vào ngày 28 tháng 10 năm 2025, và thông báo rằng toàn bộ sản lượng năm đầu tiên đã bán hết trong 5 ngày. Mặc dù trụ sở chính ở Na Uy, công ty đã công bố kế hoạch xây dựng nhà máy quy mô 100.000 robot/năm tại California, Mỹ trước năm 2027. Theo Sifted, công ty đã huy động tổng cộng khoảng 130 triệu USD từ EQT Ventures, Tiger Global và OpenAI Startup Fund. Ngoài ra, vào tháng 9 năm 2025, các nguồn tin như EqualOcean đưa tin rằng công ty đang chuẩn bị vòng gọi vốn khoảng 1 tỷ USD nhắm đến định giá vượt 10 tỷ USD (chưa có thông báo chính thức về việc đóng vòng tính đến thời điểm bài viết này). NEO được thiết kế kết hợp với điều khiển từ xa do người vận hành (teleoperation), và theo Sifted cùng The Robot Report, công ty áp dụng mô hình "Data Flywheel" — tích lũy dữ liệu huấn luyện trong khi robot thực sự hoạt động trong phòng khách của người mua.
Apptronik có trụ sở tại Texas đang chuẩn bị sản xuất hàng loạt robot hai chân Apollo, và vào ngày 11 tháng 2 năm 2026, công ty huy động được 520 triệu USD trong vòng mở rộng Series A, đẩy định giá lên khoảng 5 tỷ USD — gấp khoảng 3 lần so với vòng trước. Tổng vốn huy động lũy kế đạt khoảng 935 triệu USD. Theo CNBC và TechCrunch, Google và Mercedes-Benz tiếp tục tham gia với tư cách nhà đầu tư hiện hữu, trong khi AT&T Ventures, John Deere và Qatar Investment Authority gia nhập lần đầu. Apollo đang được thử nghiệm trên dây chuyền sản xuất của Mercedes-Benz và trong kho của GXO Logistics. CEO Jeff Cardenas đã chia sẻ với tạp chí ô tô Automate rằng ông kỳ vọng nhận được "đơn hàng trị giá 1 tỷ USD" vào năm 2027 với giá khoảng 80.000 USD/robot.
Thương hiệu lâu đời Boston Dynamics đã giới thiệu phiên bản sản xuất hàng loạt của Atlas điện toàn phần tại CES 2026 vào ngày 5 tháng 1 năm 2026. Công ty mẹ Hyundai (Hyundai Motor) đã công bố kế hoạch đầu tư 26 tỷ USD vào Mỹ và xây dựng nhà máy sản xuất Atlas với công suất 30.000 robot/năm. Cùng ngày, Boston Dynamics thông báo quan hệ đối tác chiến lược với Google DeepMind, theo đó Atlas sẽ được trang bị mô hình nền tảng mới nhất thuộc dòng Gemini Robotics. Toàn bộ sản lượng xuất xưởng trong năm 2026 đã được phân bổ cho Robotics Metaplant Application Center (RMAC) của Hyundai và Google DeepMind.
Sự trỗi dậy của các công ty Trung Quốc cũng không thể bỏ qua. Theo dữ liệu từ công ty nghiên cứu Omdia được Bloomberg đăng tải vào tháng 1 năm 2026, trong khoảng 13.000 robot humanoid xuất xưởng trên toàn cầu năm 2025, AgiBot Innovation (Thượng Hải) dẫn đầu với 5.168 chiếc, tiếp theo là Unitree Robotics và UBTech Robotics — đều là công ty Trung Quốc. Unitree đạt doanh thu 1,708 tỷ nhân dân tệ năm 2025 (tăng 335% so với năm trước) nhờ sức kéo từ mẫu G1 có giá cơ bản 16.000 USD, và vào tháng 3 năm 2026 đã nộp đơn IPO trên Sàn giao dịch chứng khoán Thượng Hải với quy mô 610 triệu USD — được kỳ vọng sẽ trở thành công ty humanoid đầu tiên của Trung Quốc niêm yết vào giữa năm 2026. Theo CGTN và Tân Hoa Xã, UBTech lên kế hoạch sản xuất 5.000 robot vào năm 2026 và 10.000 robot vào năm 2027.
Cuộc đua giành "bộ não robot": Physical Intelligence, Skild AI, Gemini Robotics, NVIDIA GR00T
Trong khi các công ty phần cứng thu hút sự chú ý rực rỡ, "cuộc chiến giành quyền thống trị mô hình nền tảng robotics — bộ não của robot" mới là nơi các nhà đầu tư VC thực sự nhắm đến tại Thung lũng Silicon. Physical Intelligence (thường gọi là π) là công ty nghiên cứu tại San Francisco được thành lập bởi các nhà nghiên cứu từ Google DeepMind, đã huy động được 400 triệu USD (khoảng 62 tỷ yên) do Sequoia dẫn đầu vào cuối năm 2024, tiếp theo là 600 triệu USD (khoảng 93 tỷ yên) vào năm 2025 do CapitalG (quỹ tăng trưởng của Alphabet) dẫn đầu với sự tham gia của Lux, Bond, Redpoint và Sequoia, đưa định giá lên 5,6 tỷ USD (khoảng 868 tỷ yên). Vào tháng 3 năm 2026, Bloomberg và TechCrunch đồng loạt đưa tin rằng công ty đang đàm phán với Founders Fund và Lightspeed để huy động thêm 1 tỷ USD (khoảng 155 tỷ yên) ở mức định giá vượt 11 tỷ USD (khoảng 1,71 nghìn tỷ yên), tuy nhiên tại thời điểm viết bài này, thông báo đóng vòng chính thức vẫn chưa được công bố. Mô hình chủ lực của công ty, π0, được xây dựng trên nền tảng PaliGemma như một Transformer với 3 tỷ tham số, được công bố vào tháng 2 năm 2025 và được huấn luyện trên hơn 10.000 giờ dữ liệu thực tế bao gồm 7 loại thân robot và 68 tác vụ. Việc công khai mã nguồn và trọng số dưới dạng open-source đã tạo ra tác động lớn trong ngành.
Skild AI tại Pittsburgh được thành lập vào năm 2023 khi hai giáo sư Deepak Pathak và Abhinav Gupta của Carnegie Mellon University tách ra. Vào tháng 1 năm 2026, công ty đã hoàn thành vòng gọi vốn Series C trị giá 1,4 tỷ USD (khoảng 217 tỷ yên) do SoftBank dẫn đầu, đưa định giá lên 14 tỷ USD (khoảng 2,17 nghìn tỷ yên) — gần gấp 3 lần so với khoảng 4,5 tỷ USD (khoảng 697,5 tỷ yên) chỉ 7 tháng trước. Các nhà đầu tư bao gồm Nvidia NVentures, Bezos Expeditions của Jeff Bezos, Samsung, LG, Schneider Electric, Salesforce Ventures, Lightspeed, Felicis, Coatue và Sequoia. Theo Crunchbase News, tổng vốn huy động đã vượt 2 tỷ USD (khoảng 310 tỷ yên) trong vòng 18 tháng. "Skild Brain" mà công ty đề xuất là mô hình nền tảng "omni-bodied" có khả năng điều khiển nhiều loại thân robot khác nhau — robot bốn chân, humanoid, cánh tay để bàn, mobile manipulator — mà không cần huấn luyện lại, đồng thời thích nghi với các tình huống như mất chi, bánh xe bị khóa hay thay đổi tải trọng đột ngột. Vào tháng 3 năm 2026, việc triển khai mô hình của công ty trên dây chuyền lắp ráp sản xuất máy chủ GPU NVIDIA Blackwell tại Houston, Texas thông qua hợp tác với Foxconn và NVIDIA đã được Hoodline và các nguồn khác công bố. TechCrunch cũng đưa tin rằng doanh thu năm 2025 của công ty đã đạt 30 triệu USD (khoảng 4,65 tỷ yên).
Google DeepMind đã công bố mô hình Vision-Language-Action "Gemini Robotics" vào mùa xuân 2025 — được xây dựng trên Gemini 2.0 với "hành động" được thêm vào như một phương thức đầu ra — và vào ngày 14 tháng 4 năm 2026 đã ra mắt "Gemini Robotics-ER 1.6" với khả năng suy luận không gian được tăng cường. Tại CES 2026, Google đã công bố quan hệ đối tác chiến lược với Boston Dynamics, với kế hoạch tích hợp mô hình này vào Atlas thế hệ mới. Ngoài ra, việc triển khai trên Apollo của Apptronik và humanoid của Agile Robots cũng đã được xác nhận, và Google đang dần định hình một cấu trúc cạnh tranh như là lớp cung cấp "bộ não chung cho nhiều loại thân robot".
NVIDIA là công ty "xuyên suốt cả phần cứng lẫn bộ não như một nền tảng". CEO Jensen Huang dự kiến liên tiếp công bố khung chiến lược Physical AI được gọi là "Five-Layer Cake (Bánh 5 tầng)" tại GTC (San Jose, Mỹ) vào tháng 3 năm 2026 và GTC Taipei tại COMPUTEX ngày 1 tháng 6 năm 2026, và đã tích hợp ba tầng gồm Cosmos (mô hình nền tảng thế giới), Isaac Sim/Lab (mô phỏng) và GR00T (mô hình nền tảng cho humanoid). Tính đến tháng 3 năm 2026, GR00T N1.7 đã có thể sử dụng thương mại dưới dạng truy cập sớm, với N2 dự kiến xuất xưởng trước cuối năm 2026, và công ty khẳng định tỷ lệ thành công với tác vụ mới trong môi trường chưa biết cao hơn gấp đôi so với các mô hình VLA truyền thống. Cosmos được huấn luyện trên hơn 200 triệu clip video được tuyển chọn và tổng số lượt tải xuống đã vượt 2 triệu. Vào tháng 1 năm 2026, TechCrunch thậm chí đã bình luận rằng "NVIDIA đang cố gắng trở thành Android của robotics tổng quát".
Sự biến động địa tầng của các ngành công nghiệp liên quan: Mô phỏng, bán dẫn, cơ cấu chấp hành, điều khiển từ xa
Để Physical AI có thể hiện diện trong thế giới thực, không chỉ cần bộ não và phần cứng mà còn cần cả một hệ sinh thái công nghệ xung quanh hoàn chỉnh. Quan trọng nhất là tầng mô phỏng/mô hình thế giới nhằm bù đắp cho sự khan hiếm dữ liệu thực tế. Cosmos và Isaac Lab 3.0 trên NVIDIA Omniverse (tích hợp động cơ vật lý mới Newton 1.0) cung cấp cơ sở hạ tầng để huấn luyện các chuyển động khéo léo phức tạp thông qua học tăng cường. Trong báo cáo Big Ideas 2026 mới nhất, a16z định nghĩa "biểu diễn học của động lực học vật lý, kiến trúc thể hiện, nền tảng mô phỏng và dữ liệu tổng hợp, mở rộng đa tạp cảm giác, phối hợp tác nhân vòng kín" là các nguyên thủy chung của Physical AI, đồng thời lập luận rằng các tác nhân như Generalist AI (GEN-1), World Labs (mô hình thế giới của Fei-Fei Li và cộng sự), Wayve (dành cho xe tự lái) và Cosmos (NVIDIA) đảm nhận các tầng xuyên suốt.
Tầng bán dẫn cũng đang bùng nổ mạnh mẽ. Như đã đề cập, Morgan Stanley ước tính TAM chip dành cho humanoid sẽ đạt 305 tỷ USD (khoảng 47,3 nghìn tỷ yên) vào năm 2045, với NVIDIA, Qualcomm (đầu tư vào Wayve, suy luận AI trên xe/edge), AMD và Arm là những bên hưởng lợi chính. Trên thực tế, vào tháng 4 năm 2026, Wayve đã huy động thêm 60 triệu USD (khoảng 9,3 tỷ yên) từ AMD, Arm và Qualcomm, nâng tổng vòng Series D lên 1,2 tỷ USD (khoảng 186 tỷ yên) với tổng cam kết 1,5 tỷ USD (khoảng 232,5 tỷ yên), đẩy nhanh triển khai thương mại robotaxi tại Anh, Mỹ và Nhật Bản.
Về linh kiện cơ khí, Hyundai Mobis (thuộc tập đoàn Hyundai Motor) cung cấp bộ truyền động cho Atlas, còn ABB (bộ phận robot công nghiệp) đã đồng ý bán cho SoftBank Group với giá 5,375 tỷ USD (khoảng 833,1 tỷ yên) vào tháng 10 năm 2025. CEO Masayoshi Son của SoftBank định vị thương vụ này là trọng tâm của giai đoạn tiếp theo nhằm hiện thực hóa "Physical AI = sự hợp nhất giữa robotics và ASI (trí tuệ nhân tạo siêu việt)", dự kiến hoàn tất vào giữa đến cuối năm 2026 sau khi được cơ quan quản lý phê duyệt. Về phía pin, Battery Tech Online và các nguồn khác phân tích rằng "locomotion (di chuyển) chiếm 70% tiêu thụ điện năng, trong khi tải tính toán đang mở rộng lên đến 20~25%". Ngay cả với gói pin 2,3 kWh của Figure 03, thời gian hoạt động thực tế chỉ đạt 3~4 giờ, khiến thiết bị ngoại vi hỗ trợ sạc nhanh hoặc hoán đổi pin trở nên không thể thiếu để thực hiện ca làm việc 8 giờ liên tục.
Ở tầng thu thập dữ liệu, teleoperation (điều khiển từ xa) được định vị là cốt lõi của Data Flywheel theo mô hình "con người điều khiển → trở thành dữ liệu huấn luyện". Theo các báo cáo ngành như Labellerr, tính đến năm 2026, tổng chi phí thu thập dữ liệu teleoperation là 118~200 USD mỗi giờ (khoảng 1,8~3,1 vạn yên), đòi hỏi 1~10 phút thời gian của người vận hành lành nghề cho mỗi quỹ đạo. 1X đang triển khai teleoperation trong gia đình quy mô lớn với NEO, trong khi nhà máy Foxconn của Mentee Robotics, Skild, nhà máy Mercedes-Benz của Apptronik và nhà máy BMW của Figure đều theo cùng một mô hình "triển khai = thu thập dữ liệu", khiến "số lượng địa điểm triển khai = nguồn lực cạnh tranh" đối với mỗi công ty.
Tiếng nói thật của các VC Silicon Valley: Luận điểm "Viết lại stack công nghiệp" của a16z
Luận điệu mà các GP hàng đầu Silicon Valley công khai trình bày đang hội tụ vượt ra ngoài vẻ lạc quan bề ngoài, dần hình thành các luận điểm mang tính cấu trúc. Andreessen Horowitz (a16z) liên tiếp công bố hai luận điểm đầu tư chiến lược từ cuối 2025 đến 2026 — "Frontier Systems for the Physical World" và "Big Ideas 2026: Physical AI and the Industrial Stack" — định nghĩa robotics là "hiện thân literal nhất của logic theo đó các hệ thống AI nhận thức, suy luận và tác động lên thế giới vật lý". Ba lĩnh vực trọng tâm được đề xuất gồm: (1) học máy cho robot, (2) khoa học tự trị tập trung vào khoa học vật liệu và khoa học sự sống, và (3) các giao diện người-máy thế hệ mới như BCI, giọng nói thầm lặng và số hóa khứu giác. Bản thân Marc Andreessen, trong podcast của Joe Rogan tháng 5/2026 và cuộc trò chuyện trên Latent Space, đã phát biểu rằng "chưa ai hiểu hoàn toàn về định luật tỷ lệ của world model và robotics", nhấn mạnh mức độ bất định đủ lớn để các siêu quỹ tập trung đầu tư. a16z đang rót vốn vào các deal thiên về triển khai thực tế như Mind Robotics, Anduril và Physical Intelligence (được cho là đang cân nhắc tham gia).
Sequoia Capital dẫn đầu Series B của Physical Intelligence, tăng cường đầu tư trong Series C của Skild AI, và tiếp tục rót vốn vào Agility Robotics — bao phủ toàn bộ trục "foundation model × thân thể vật lý × địa điểm triển khai". Trong podcast Training Data do công ty vận hành, Jim Fan của NVIDIA đã bàn về "fast & slow thinking của robot", phác thảo kịch bản pha trộn giữa tư tưởng world model trường phái Yann LeCun và tư tưởng reinforcement learning trường phái Sutton. Founders Fund ra mắt Growth IV trị giá 6 tỷ đô la (khoảng 930 tỷ yên) vào tháng 3/2026 — lớn nhất từ trước đến nay — và được đưa tin là tham gia vào Series H trị giá 5 tỷ đô la của Anduril (định giá 61 tỷ đô la ≈ 9,46 nghìn tỷ yên, đồng dẫn đầu cùng a16z) cũng như vòng gọi vốn đang đàm phán của Physical Intelligence, làm đậm thêm màu sắc "hardtech × quốc phòng" theo trục của Peter Thiel.
Khosla Ventures lập Fund XIII trị giá 3,5 tỷ đô la (khoảng 542,5 tỷ yên) vào năm 2024, chính thức đưa robot hình người, năng lượng hạt nhân tổng hợp và hạ tầng AI vào mandate. Nhà sáng lập Vinod Khosla, trong các cuộc phỏng vấn với Bloomberg và Fortune tháng 4/2026, đã mạnh dạn tuyên bố rằng "kinh doanh robot hình người sẽ vượt qua ngành ô tô trong vòng 20 năm" và "đến năm 2030, AI có thể thực hiện 80% công việc", đồng thời phác thảo kịch bản "Physical AI viết lại nền kinh tế theo hướng giảm phát (deflationary)".
Điểm chung của các luận điểm này là nhìn nhận Physical AI không phải là "sự nối dài đơn thuần của chatbot thông minh", mà là thứ "đặt nền trên các mô hình vận hành mới, hạ tầng công nghiệp và khả năng thu thập dữ liệu độc quyền" — từ đó viết lại các ngành công nghiệp vốn khó tiếp cận bằng vốn VC như ô tô, xây dựng, logistics và năng lượng. Nhận định của Coatue và Sapphire Ventures trong outlook 2026 rằng "AI đang mở rộng sang toàn bộ các tầng của stack" cũng là cách diễn đạt lại cùng một quan điểm đó.
Chiến lược quốc gia và địa chính trị của Trung Quốc: Tương lai của quyền bá chủ
Chiến lược quốc gia của Trung Quốc đang trực tiếp thách thức chủ nghĩa lạc quan của Thung lũng Silicon. Trong Kế hoạch 5 năm lần thứ 15 công bố vào tháng 3 năm 2026, Trung Quốc đã nâng "Trí tuệ Thể hiện (Embodied Intelligence)" lên thành một trong 10 lĩnh vực công nghiệp mới nổi trọng điểm, đặt ngang hàng với năng lượng nhiệt hạch ở cấp chiến lược cao nhất. Theo phân tích của MERICS, The Diplomat và IFR (Liên đoàn Robot Quốc tế), điều này cho phép huy động Quỹ Đầu tư Công nghiệp AI Quốc gia (quy mô 60 tỷ nhân dân tệ, khoảng 1.320 tỷ yên), cùng với nguồn vốn đối ứng từ các địa phương và quỹ đầu tư mạo hiểm nhà nước. Reuters đưa tin rằng từ cuối năm 2024 đến đầu năm 2025, chính phủ Trung Quốc đã rót hơn 20 tỷ đô la Mỹ (khoảng 3,1 nghìn tỷ yên) vào ngành robot thông qua trợ cấp, cho vay, ưu đãi thuế và quỹ nhà nước. Năm 2024, số lượng robot công nghiệp được lắp đặt tại Trung Quốc đạt 295.000 chiếc, chiếm 54% thị phần toàn cầu, với tổng số robot đang vận hành vượt mốc 2 triệu chiếc.
Bộ Công nghiệp và Công nghệ thông tin (MIIT) đã thành lập Ủy ban Tiêu chuẩn hóa Kỹ thuật Robot Humanoid và Trí tuệ Thể hiện vào tháng 12 năm 2025, và công bố hệ thống tiêu chuẩn quốc gia bao phủ toàn bộ vòng đời của ngành vào tháng 3 năm 2026. Trung Quốc cũng nhắm đến vị trí dẫn đầu trong tiêu chuẩn quốc tế IEC về robot chăm sóc người cao tuổi. CNBC, TechCrunch và Bloomberg đều đồng thuận nhận định rằng "Trung Quốc đang bỏ xa các đối thủ Mỹ về tốc độ sản xuất và giá cả, cả về mặt cứng lẫn mềm thông qua chuỗi cung ứng xe điện", đồng thời dẫn tính toán cho thấy lượng hàng xuất xưởng hàng năm của riêng Unitree tương đương khoảng 36 lần tổng sản lượng của Tesla và Figure cộng lại.
Trong khi đó, căng thẳng địa chính trị đã làm nguội lạnh đầu tư xuyên biên giới. Theo Reuters, các quỹ hưu trí lớn của Mỹ đang thu hẹp mức độ tiếp xúc với cổ phiếu robot AI của Trung Quốc, trong khi cả hai phía Mỹ và Trung Quốc đều đang thắt chặt các quy định về đầu tư vào và ra. Động thái SoftBank mua lại mảng kinh doanh robot của ABB với giá 5,375 tỷ đô la Mỹ (khoảng 831,1 tỷ yên) có thể được đọc là sự tái cơ cấu chiến lược của nguồn vốn Nhật Bản, nhằm tìm cách cân bằng giữa Trung Quốc và Mỹ thông qua tài sản châu Âu. Tại Nhật Bản, JAL (Japan Airlines) đã bắt đầu triển khai vận hành thực tế robot humanoid tại sân bay Haneda từ tháng 5 năm 2026, đánh dấu sự khởi đầu âm thầm của làn sóng ứng dụng trong ngành dịch vụ.
Tông điệu đưa tin của các báo và dự báo của các chuyên gia phân tích
Luận điệu truyền thông đã dịch chuyển từ giai đoạn "tập trung vào video demo và tin tức mua sắm hoành tráng" trước năm 2025 sang giai đoạn "kiểm chứng lạnh lùng quá trình chuyển đổi từ PoC sang nền tảng" kể từ năm 2026. Bloomberg ngày 8 tháng 1 năm 2026 với bài "Chinese Firms Dominated Global Humanoid Robot Shipments in 2025" đã đặt trọng tâm vào số lượng xuất xưởng của các công ty Trung Quốc vượt qua Tesla và Figure, trong khi các phương tiện truyền thông thuộc hệ thống Wall Street Journal cũng thúc đẩy sự chuyển dịch góc nhìn từ "số lượng" sang "giá trị gia tăng". TechCrunch liên tục chỉ ra rằng "lớp mô hình nền tảng đang ngày càng tập trung độc quyền" qua các bài viết về vòng gọi vốn của Skild AI tháng 1, Apptronik tháng 2, và bài quan sát về hoạt động gọi vốn của Physical Intelligence tháng 3 năm 2026. Reuters và CNBC thường đưa tin theo khuôn khổ đối lập nhị phân "chiến lược quốc gia Trung Quốc vs cạnh tranh tự do của các gã khổng lồ công nghệ Mỹ", và các nhà cung cấp ETF như KraneShares đã phổ biến cụm từ "cuộc đua từ Pilot đến Platform".
Các dự báo tương lai của giới phân tích cũng dao động rất lớn. Goldman Sachs Research nhận định "có nhu cầu đáng kể trong các môi trường có cấu trúc (lắp ráp xe điện, phân loại linh kiện, v.v.) với công nghệ hiện tại", và dự báo lượng xuất xưởng năm 2026 đạt 50.000 đến 100.000 chiếc, vượt 250.000 chiếc vào năm 2030. Adam Jonas của Morgan Stanley và các đồng nghiệp trong báo cáo "The Humanoid 100" tháng 1 năm 2026 đã tổng hợp toàn bộ chuỗi giá trị robot hình người (mô hình nền tảng, bán dẫn, bộ truyền động, hộp giảm tốc, cảm biến hình ảnh, năng lượng) vào 100 mã chứng khoán. Bain & Company đưa ra quan điểm thận trọng rằng "trong ngắn hạn, phần lớn các triển khai nên được xem là dựa trên điều khiển từ xa". McKinsey trong báo cáo "Crossing the Chasm" nhận định chi phí hiện tại (150.000–500.000 USD) vẫn còn quá cao để phổ cập sản xuất đại trà, và xác định điều kiện phổ cập là đạt mức 20.000–50.000 USD.
Gartner trong thông cáo báo chí ngày 21 tháng 1 năm 2026 dự báo "đến năm 2028, sẽ có ít hơn 20 công ty đạt giai đoạn sản xuất trong lĩnh vực sản xuất và chuỗi cung ứng", và cho rằng sẽ xảy ra quá trình sàng lọc thực tế trong ngành. Ngược lại, nhóm công nghệ toàn cầu của Bank of America đã công bố báo cáo vào tháng 3 năm 2026 với kịch bản dài hạn cực đoan rằng "đến năm 2060, số người sở hữu robot hình người sẽ nhiều hơn số người sở hữu ô tô". ABI Research tổng kết rằng "2026–2027 là điểm uốn, khi các rào cản lớn nhất về quy định, an toàn và ROI sẽ cơ bản được giải quyết".
Các trường hợp ứng dụng thực tế chính thức: Triển khai tại BMW, Mercedes, Hyundai, Amazon và các sân bay
Bước ngoặt chuyển đổi từ PoC sang nền tảng được thể hiện qua việc triển khai Figure 02 tại BMW Spartanburg. BMW Group định vị thí điểm này là "showcase mở rộng Physical AI tại châu Âu," bắt đầu thử nghiệm robot humanoid bánh xe AEON của Hexagon tại nhà máy Leipzig, Đức từ tháng 4 năm 2026, với kế hoạch mở rộng sang thí điểm trong quy trình lắp ráp pin điện áp cao và quy trình sản xuất linh kiện vào mùa hè. Ngoài ra, BMW đã thành lập "Center of Competence for Physical AI in Production" tại Leipzig, đóng vai trò trung tâm chỉ huy triển khai AI và robot trên toàn cầu.
Mercedes-Benz đã đưa Apollo của Apptronik vào "logistics chuyên sâu (vận chuyển linh kiện và kiểm tra chất lượng ban đầu)," đang mở rộng từng bước hướng đến vận hành hoàn toàn tự động. Hyundai Motor Group dự kiến triển khai Atlas mới của Boston Dynamics tại nhà máy nội bộ (như Hyundai Robotics Metaplant America) vào năm 2026, và lên kế hoạch vận hành chính thức tại nhà máy Georgia từ năm 2028. Về phía Trung Quốc, XPeng, Xiaomi và UBTech đang tiến hành triển khai trên dây chuyền EV, và theo Automotive Manufacturing Solutions, hơn 20 OEM ô tô chính thống đang tích cực đầu tư và ứng dụng.
Trong lĩnh vực logistics và kho vận, Digit của Agility Robotics đã chứng minh khả năng vận chuyển hơn 100.000 tote tại các trung tâm của GXO Logistics, Spanx và Mercado Libre. Trong vòng Series C, công ty đã huy động được 400 triệu USD (khoảng 62 tỷ yên) do WP Global Partners dẫn đầu, cùng SoftBank, Amazon, DCVC và Playground Global, nâng tổng vốn huy động lên 641 triệu USD (khoảng 99,4 tỷ yên) và định giá đạt 1,75 tỷ USD (khoảng 271,2 tỷ yên). Amazon đã đạt quy mô vận hành 1 triệu robot trên toàn thế giới vào giữa năm 2025, kết hợp các dòng máy tự phát triển như Sequoia (nền tảng tự động hóa tích hợp), Sparrow (cánh tay đa khớp dạng hút, xử lý được khoảng 65% SKU), Proteus (di động tự hành), Robin và Cardinal, đồng thời khởi động tự động hóa toàn bộ luồng tại trung tâm thế hệ mới ở Shreveport.
Trong lĩnh vực dịch vụ, ứng dụng Physical AI trong drone tự động Roadrunner của Anduril và lĩnh vực hàng không - quốc phòng ngày càng mở rộng; công ty đã huy động 5 tỷ USD (khoảng 775 tỷ yên) trong vòng Series H do Thrive Capital và a16z đồng dẫn đầu vào tháng 5 năm 2026, đạt định giá 61 tỷ USD (khoảng 9,46 nghìn tỷ yên). Nhà máy Arsenal-1 của Anduril (bang Ohio, quy mô 5 triệu feet vuông, đầu tư 1 tỷ USD tương đương khoảng 155 tỷ yên) trở thành địa điểm biểu tượng của sản xuất Physical AI. Tại sân bay, JAL đã triển khai robot humanoid tại sân bay Haneda vào tháng 5 năm 2026 và bước vào giai đoạn kiểm chứng vận hành.
Xe tự lái vẫn là một trong những "ứng dụng thương mại lớn nhất" của Physical AI. Waymo đã hoàn tất vòng huy động vốn trị giá 16 tỷ USD (khoảng 2,48 nghìn tỷ yên) với định giá 126 tỷ USD (khoảng 19,53 nghìn tỷ yên) vào năm 2025, phủ sóng thương mại hơn 1.400 dặm vuông tại 11 thành phố ở Mỹ, với mục tiêu đạt 1 triệu chuyến mỗi tuần và mở rộng đến 20 thành phố mới (bao gồm London và Tokyo) vào cuối năm 2026. Như đã đề cập, Wayve đã ký MoU với Chính phủ Anh vào tháng 5 năm 2026, hợp tác với Uber để bắt đầu thử nghiệm thương mại L4 tại London trong năm 2026.
Những thách thức còn lại: tính tự chủ, an toàn, pin, dữ liệu, chi phí
Những thách thức ẩn sau làn sóng hứng khởi vẫn còn rất lớn. Rào cản đầu tiên là "khoảng cách tự chủ". Như cả Bain & Company lẫn Morgan Stanley đều chỉ ra, phần lớn các bản demo robot hình người hiện nay cần được mặc định là vận hành từ xa (teleoperation), và không thể coi là hoàn toàn tự chủ trừ khi được công bố rõ ràng. Theo phân tích ngành của Robozaps và các tổ chức khác, ngay cả các benchmark được huấn luyện trên 1 triệu trajectory và 217 tác vụ cũng chỉ đạt tỷ lệ thành công 78%, còn cách xa ngưỡng 95% cần thiết cho vận hành không người giám sát. Tỷ lệ rơi vật thể do gắp hỏng cũng dao động từ 5~15% ngoài phân phối dữ liệu huấn luyện.
Rào cản thứ hai là pin và năng lượng. Với pack 2,3 kWh của Figure 03, thời gian vận hành thực tế chỉ giới hạn ở 3~4 giờ; locomotion (di chuyển) chiếm hơn 70% công suất tiêu thụ, trong khi tỷ lệ tải tính toán đang tăng lên 20~25% cùng với xu hướng Agentic hóa. Để hoàn thành ca làm việc 8 tiếng, cần có sự kết hợp ba yếu tố: tự động hóa hoán đổi pin, hạ tầng sạc nhanh và thiết kế vật liệu nhẹ hơn.
Rào cản thứ ba là an toàn và quy định. Nền tảng là ISO 10218:2025 và ANSI/A3 R15.06-2025, trong khi ISO 25785-1 dành cho robot ổn định động đang được soạn thảo. EU đang hướng tới việc bắt buộc áp dụng an ninh mạng và đánh giá bên thứ ba thông qua Đạo luật AI (2025) và Machinery Regulation (áp dụng từ 2027). Tại Nhật Bản, JIS B 8433-1/2 đã được triển khai; còn tại Mỹ, dù chưa có luật liên bang, dự kiến sẽ hình thành bức tranh "vá víu" giữa các tiêu chuẩn tự nguyện như UL 3300 và các quy định theo từng bang. McKinsey nêu hai yêu cầu cốt lõi để thiết lập ROI: "hệ thống an toàn cho vận hành không hàng rào (fenceless)" và "duy trì hoạt động tương đương một ca làm việc".
Rào cản thứ tư là cơ cấu chi phí. Mức giá hiện tại mà McKinsey chỉ ra, từ 150.000 đến 500.000 USD (khoảng 23,25 triệu đến 77,5 triệu yên), vẫn còn gấp 3~25 lần so với mức 20.000~50.000 USD (khoảng 3,1 triệu đến 7,75 triệu yên) cần thiết để sản xuất đại trà. Liệu cuối cùng Optimus của Tesla có đạt mức dưới 20.000 USD (khoảng 3,1 triệu yên), NEO của 1X đạt 20.000 USD (khoảng 3,1 triệu yên), hay Unitree G1 đạt 16.000 USD (khoảng 2,48 triệu yên) hay không — đó là điều sẽ quyết định "điểm tới hạn của thị trường gia đình/tiêu dùng".
Rào cản thứ năm là vấn đề địa chính trị và phân mảnh dữ liệu. Do trợ cấp nhà nước của Trung Quốc và các biện pháp kiểm soát xuất khẩu cùng rà soát đầu tư nước ngoài của Mỹ, chuỗi cung ứng Physical AI — gồm nam châm đặc biệt, hộp số giảm tốc, bán dẫn và cảm biến cao cấp — đang ngày càng phân cực thành hai cực. Số lượng hồ sơ phải trải qua quá trình xét duyệt kéo dài của cả CFIUS (Ủy ban Đầu tư Nước ngoài vào Mỹ) lẫn SAMR của Trung Quốc (Tổng cục Quản lý Thị trường Quốc gia) ngày một tăng, và thương vụ SoftBank/ABB cũng được cho là phụ thuộc vào sự chấp thuận của cơ quan quản lý tại EU, Trung Quốc và Mỹ.
Từ nửa cuối năm 2026 đến năm 2028 ── Điều gì sẽ xảy ra tiếp theo
Cột mốc được chú ý nhất gần đây là bài phát biểu chủ đề tại GTC Taipei at COMPUTEX của Jensen Huang vào ngày 1 tháng 6 năm 2026. NVIDIA dự kiến sẽ công bố khung chiến lược Physical AI mang tên "Five-Layer Cake", cùng với việc ra mắt chính thức GR00T N2, Cosmos Reason 2 và Isaac Lab 3.0, đồng thời mở rộng thêm quan hệ hợp tác với hơn 110 công ty phát triển não robot, tự động hóa công nghiệp và doanh nghiệp humanoid. Tesla dự kiến bắt đầu sản xuất đại trà Optimus Gen 3 từ mùa hè 2026 tại Fremont, với quy mô vài trăm đến vài nghìn chiếc trong năm 2026; mục tiêu danh nghĩa "năng lực 1 triệu chiếc/năm" mà Musk đề ra là vào cuối năm 2026, còn nhu cầu thực tế dự kiến bắt đầu hình thành từ năm 2027–28. Tesla cũng được cho là đang lên kế hoạch bán Optimus ra thị trường đại chúng trước cuối năm 2027.
Về phía phần cứng, 1X dự kiến vận hành nhà máy sản xuất 100.000 chiếc/năm tại California trước năm 2027; Apptronik kỳ vọng đạt đơn hàng thương mại trị giá 1 tỷ USD (khoảng 155 tỷ yên) cho Apollo vào năm 2027; Hyundai lên kế hoạch sản xuất 30.000 humanoid tại nhà máy Georgia vào năm 2028. Về phía mô hình nền tảng, việc Physical Intelligence hoàn tất vòng gọi vốn bổ sung, dây chuyền Foxconn của Skild Brain đi vào hoạt động toàn diện, và việc tích hợp Google Gemini Robotics-ER lên Atlas sẽ là những điểm mấu chốt trong nửa cuối năm 2026. Gartner dự báo đến năm 2028, chỉ "dưới 20 công ty" có thể tiến vào giai đoạn sản xuất đại trà trong lĩnh vực sản xuất và chuỗi cung ứng, và quá trình sàng lọc những người chiến thắng đang dần rõ ràng.
Đáng chú ý hơn nữa là kịch bản mà Morgan Stanley dự đoán trong báo cáo triển vọng tháng 12 năm 2025: "Trong năm 2026, ít nhất một trong các tập đoàn công nghệ lớn (Meta, Google, Apple, Amazon, OpenAI) sẽ chính thức công bố kế hoạch robotics." Amazon đã thu nạp nhân sự chủ chốt từ Covariant vào năm 2024, sau đó trải qua biến động khi FTC nộp báo cáo chống độc quyền vào năm 2025, nhưng vẫn tiếp tục đầu tư nghiêm túc vào mô hình nền tảng robotics như một sự mở rộng tự nhiên của tự động hóa fulfillment. Google theo đuổi chiến lược theo lớp, cung cấp mô hình cho các công ty phần cứng thông qua DeepMind, trong khi Microsoft hiện chủ yếu tham gia gián tiếp thông qua NVIDIA, Wayve và Anthropic. OpenAI đang được nhiều phương tiện truyền thông đề cập đến khả năng chuyển từ phụ thuộc vào các bên ngoài như 1X, Physical Intelligence và Figure (trước đây) sang phát triển kế hoạch robotics nội bộ, tuy nhiên tại thời điểm viết bài này vẫn chưa có thông báo chính thức.
Tổng hợp từ góc nhìn của các VC Silicon Valley, từ nửa cuối năm 2026 đến năm 2028 sẽ diễn ra đồng thời ba thay đổi cơ cấu: "người thống trị tầng mô hình nền tảng được xác định, tầng phần cứng chuyển sang sản xuất đại trà, và các tiêu chuẩn quy định cùng an toàn được hài hòa hóa ở cấp độ quốc tế." Như nhà cung cấp ETF KraneShares nhận định, Physical AI đã chuyển sân sang "cuộc đua từ Pilot lên Platform." Ngắn hạn sẽ tiếp tục là giai đoạn bất ổn với bong bóng kỳ vọng và sự đào thải của một số doanh nghiệp song song tồn tại, nhưng chính thực tế rằng "thân xác, trí não, hệ thần kinh và mạch máu" của robot đang đồng thời hội tụ đã phản ánh điểm uốn công nghiệp từ AI kỹ thuật số sang Physical AI.