Chất bán dẫn thế hệ mới của Google: TPU 8t, TPU 8i

Tại sự kiện Cloud Next 2026 ngày 22 tháng 4 năm 2026, Google đã công bố TPU thế hệ thứ 8, tách dòng TPU vốn là một khối nguyên trạng từ trước đến nay thành hai nhánh: "TPU 8t" chuyên dụng cho huấn luyện và "TPU 8i" chuyên dụng cho suy luận. Dòng đầu được đồng thiết kế với Broadcom, dòng sau với MediaTek, và cả hai dự kiến sẽ được sản xuất hàng loạt trên tiến trình 2nm của TSMC, với tuyên bố hiệu năng/giá huấn luyện gấp 2,8 lần, hiệu năng/giá suy luận gấp 1,8 lần và hiệu năng trên mỗi watt gấp 2 lần so với Ironwood. Bài viết này sẽ sắp xếp lại khái niệm TPU là gì, sau đó xem xét đa chiều cú sốc kỹ thuật của hai con chip mới, cách các quỹ VC ở Thung lũng Silicon đón nhận điều này, lập trường của các phương tiện truyền thông lớn, cùng các cột mốc trong 12–18 tháng tới.

TPU là gì

TPU (Tensor Processing Unit) là một ASIC (mạch tích hợp chuyên dụng) độc quyền do Google thiết kế nhằm tăng tốc quá trình suy luận và huấn luyện mạng nơ-ron của riêng họ, sở hữu kiến trúc đã lược bỏ những chức năng không liên quan như pipeline khả biến hay ray tracing vốn có trên GPU đa dụng, dồn toàn lực vào phép nhân ma trận (MatMul) và phép toán rút gọn. TPU thế hệ đầu được đưa vào sử dụng nội bộ năm 2015, và CEO đương nhiệm khi đó là Sundar Pichai đã lần đầu công khai sự tồn tại của nó tại Google I/O 2016. Kể từ đó, Google đã trang bị HBM cho TPU v2 để mở rộng cho huấn luyện, đưa làm mát bằng chất lỏng vào v3, thiết lập kết cấu (fabric) 3D-torus dựa trên chuyển mạch quang (OCS) ở v4 và v5, đồng thời hướng đến việc đồng thời đạt được huấn luyện quy mô lớn lẫn suy luận tốc độ cao ở thế hệ thứ sáu "Trillium" và thế hệ thứ bảy "Ironwood".

Đặc trưng về mặt thiết kế nằm ở mảng systolic được gọi là đơn vị phép toán ma trận (MXU), bộ nhớ băng thông siêu rộng nhờ HBM, và "scale-up fabric" coi toàn bộ pod như một cỗ máy logic duy nhất. Trong khi GPU của Nvidia bó các nút riêng lẻ thông qua NVLink và InfiniBand, thì TPU mang triết lý mở rộng không gian bộ nhớ chia sẻ với tính nhất quán (coherent) ở cấp phần cứng để chứa trọn một job duy nhất, và điểm khác biệt lớn nhất so với các ASIC của hãng khác là nó được vận hành đồng nhất với ngăn xếp phần mềm do Google sản xuất như JAX và Pathways. Dylan Patel của SemiAnalysis diễn đạt điều này là "ưu thế ở kiến trúc hệ thống chứ không phải ở vi kiến trúc", và định vị nó là nguồn gốc của ưu thế về tổng chi phí sở hữu mang tính cấu trúc của Google Cloud so với Microsoft Azure và Amazon EC2.

Cú sốc của TPU 8t và TPU 8i ― "Bước ngoặt" đến với thế hệ thứ 8

Điểm tranh luận lớn nhất của thế hệ thứ 8 nằm ở việc Google lần đầu tiên chia TPU thành 2 chip trong 1 dòng sản phẩm. "TPU 8t" dành cho huấn luyện (tên mã nội bộ Sunfish) do Broadcom dẫn đầu thiết kế, với siêu pod gồm 9.600 chip được trang bị 2 petabyte HBM dùng chung và 121 ExaFLOPs (FP4), nâng hiệu suất giá thành huấn luyện lên tối đa 2,8 lần so với Ironwood. Trong khi đó, "TPU 8i" dành cho suy luận và suy luận tại thời điểm suy luận (reasoning) (tên mã Zebrafish) do đối tác mới MediaTek đảm nhiệm thiết kế, với pod gồm 1.152 chip được trang bị HBM 288GB và SRAM trên chip 384MB (gấp 3 lần so với thế hệ trước), cải thiện hiệu suất giá thành suy luận lên 80% so với Ironwood. Cả hai đều được cho là vẫn kém Nvidia Vera Rubin R200 và AMD MI455X trong khoảng tỷ lệ 3:1 về hiệu năng tính toán tuyệt đối trên mỗi chip, nhưng Google khẳng định rằng xét về tổng chi phí sở hữu và thông lượng trên đơn vị pod, thậm chí trên đơn vị trung tâm dữ liệu, họ có thể cạnh tranh ngang ngửa hoặc hơn.

Cốt lõi của cú sốc nằm ở ba điểm. Thứ nhất, Google đã thực chất từ bỏ khái niệm "chip AI đa năng". HyperFRAME Research đánh giá đây là "lời thú nhận ngầm trước việc hồ sơ tải của tiền huấn luyện và suy luận song song hàng loạt bằng tác tử đã phân ly quá mức", và chỉ ra rằng Google đã chuyển hướng sang chuyên dụng hóa thay vì tối ưu hóa lai. Thứ hai, thế độc quyền của Broadcom đã sụp đổ và MediaTek gia nhập, qua đó nhóm các nhà phân tích đứng đầu là Vivek Arya của Bank of America ước tính rằng ASP trên mỗi TPU sẽ tăng từ mức 5.000–6.000 USD (khoảng 770.000–930.000 yên) trước đây lên 12.000–15.000 USD (khoảng 1,86–2,32 triệu yên). Thứ ba, Anthropic được định vị là khách hàng lớn nhất sử dụng tối đa 1 triệu chip, và Meta, suy luận Siri thông qua Apple, Citadel Securities, 17 phòng thí nghiệm quốc gia của Bộ Năng lượng Hoa Kỳ, và thậm chí cả OpenAI cũng đã bắt đầu đảm bảo dung lượng TPU. Việc ba xu hướng — chuyên dụng hóa, mua sắm từ hai nguồn, và mở rộng bán ra bên ngoài — đồng thời diễn ra chính là điều đã đẩy Cloud Next 2026 từ "một sự kiện thường niên đơn thuần" lên thành "điểm chuyển dịch cấu trúc của thị trường hạ tầng AI".

Đào sâu công nghệ ― Boardfly và những đổi mới trong thiết kế vải

TPU 8t kế thừa kiến trúc 3D torus truyền thống đồng thời giới thiệu phép tính FP4 gốc và TPUDirect RDMA. Mỗi chip phát huy 12,6 FP4 PFLOPs và cung cấp dữ liệu từ HBM3e 216GB với băng thông 6.528GB/s. Đáng chú ý là việc nâng ICI (Inter-Chip Interconnect) lên 19,2Tbps và tăng tốc IO gấp 10 lần nhờ TPUDirect Storage kết nối trực tiếp với lưu trữ, qua đó củng cố tuyên bố của Google rằng chu kỳ huấn luyện cho một công việc được rút ngắn từ vài tháng xuống vài tuần. Hơn nữa, ở tầng fabric, "Virgo Network" thế hệ mới kết nối hơn 134.000 chip TPU 8t với băng thông bisection hai chiều 47 petabit mỗi giây, và khi kết hợp với Pathways, hệ thống được thiết kế để xây dựng một cụm huấn luyện đơn nhất có quy mô 1 triệu chip. Việc có thể duy trì "goodput" 97% – chỉ số biểu thị tỷ lệ vận hành – khi kết hợp với chuyển mạch quang (OCS) cũng mang lại giá trị vô cùng to lớn đối với việc phát triển mô hình nền tảng vốn đòi hỏi huấn luyện liên tục trong thời gian dài.

Thiết kế của TPU 8i còn đi xa hơn nữa. Thay đổi cấu trúc lớn nhất là việc từ bỏ 3D torus và áp dụng một topology mới gọi là "Boardfly", lấy cảm hứng từ nghiên cứu high-radix năm 2008. Khi so sánh ở quy mô domain 1.024 chip, trong khi 3D torus cần đến 16 hop cho giao tiếp xa nhất, thì Boardfly chỉ cần 7 hop, tức là đường kính mạng được giảm 56%. Điều này có ý nghĩa quyết định đối với các workload đòi hỏi giao tiếp toàn-đối-toàn không thể dự đoán trước như mô hình Mixture-of-Experts hay suy luận tại thời điểm suy luận (chain-of-thought). Thêm vào đó, bằng cách loại bỏ hoàn toàn khối SparseCore của Ironwood và thay thế bằng Collectives Acceleration Engine (CAE) mới được thiết lập trên die core-chiplet, độ trễ của các phép collective trên chip trong quá trình giải mã tự hồi quy đã được giảm tối đa còn một phần năm. Patrick Moorhead đánh giá đây là "canh bạc đúng đắn cho kỷ nguyên agent – tối ưu hóa độ trễ chứ không phải băng thông". Ngoài ra, cả hai chip đều sử dụng "Axion" – CPU dựa trên Arm độc quyền của Google – làm host CPU, và kết hợp với làm mát bằng chất lỏng thế hệ thứ 4 để nâng mật độ nhiệt trên mỗi rack đồng thời tăng hiệu năng trên mỗi watt lên gấp 2 lần so với thế hệ trước. Node sản xuất được cho là tiến trình cấp 2nm của TSMC, nhưng Google chưa chính thức xác nhận và có một số ý kiến cho rằng đó là dòng TSMC N3, nên đây là lĩnh vực cần phải lưu ý.

Phản ứng của giới VC Thung lũng Silicon — "Con dao đã được rút ra"

Các quỹ VC lớn ở Silicon Valley đang đón nhận thông báo về TPU 8t / 8i như một sự kiện đẩy nhanh "quá trình chuyển dịch từ tương lai Nvidia chiếm 99% thị trường sang tương lai Nvidia chỉ chiếm 80%". Trong luận đề "Theory of Well" do đối tác Anjney Midha của Andreessen Horowitz dẫn dắt, giá trị bền vững nhất trong stack AI không tích lũy ở lớp ứng dụng mà ở "giếng (well)", tức là lớp hạ tầng nắm giữ các điểm nghẽn (chokepoint). a16z đã công bố huy động tổng cộng 15 tỷ USD (khoảng 2,3 nghìn tỷ yên) trong năm 2025, trong đó phân bổ 1,7 tỷ USD (khoảng 260 tỷ yên) cho hạ tầng AI; tuy nhiên, một memo gần đây của hãng đưa ra nhận định rằng "việc Google đẩy mạnh TPU độc quyền, Amazon đẩy Trainium / Inferentia và Microsoft đẩy Maia là cuộc chiến tử thủ vị thế giếng, và các startup không nên xông thẳng vào mặt trận này". Nói cách khác, a16z đang đọc sự xuất hiện của TPU 8t / 8i như một tín hiệu để tái xác nhận những vị trí mà danh mục đầu tư của mình không nên đặt cược.

Sequoia Capital và Founders Fund không đưa ra bình luận chính thức, nhưng theo các cuộc phỏng vấn của truyền thông trong ngành, cả hai được cho là đã dịch chuyển các quyết định đầu tư vào các công ty mô hình nền tảng như Anthropic, xAI, Cohere, Mistral sang một hình thức phụ thuộc rất lớn vào "dung lượng tính toán có thể tiếp cận và đường cong giá của nó". Anthropic vào ngày 24 tháng 4 năm 2026 đã nhận khoản đầu tư bổ sung lên tới 40 tỷ USD (khoảng 6,2 nghìn tỷ yên) từ Google cùng dung lượng TPU 5 gigawatt, đẩy định giá post-money lên 350 tỷ USD (khoảng 54 nghìn tỷ yên). Ngay sau đó công ty cũng ký hợp đồng 5GW với AWS, qua đó đảm bảo tổng cộng 10GW dung lượng tính toán, và lãi chưa thực hiện từ vòng gọi vốn do Sequoia dẫn dắt năm 2025 đang tăng vọt. Trong quỹ AI 3,5 tỷ USD (khoảng 540 tỷ yên) mà Kleiner Perkins công bố vào tháng 3 năm 2026, các động thái tìm kiếm cơ hội tham gia vào các neo-cloud mới xoay quanh TPU 8t (như liên doanh Blackstone-Google) cũng được đưa tin.

Động thái mang tính biểu tượng nhất là việc Blackstone vào ngày 19 tháng 5 năm 2026 đã cam kết 5 tỷ USD (khoảng 780 tỷ yên) vốn cổ phần vào liên doanh với Google và công bố sẽ vận hành một trung tâm dữ liệu nền tảng TPU công suất 500MW vào năm 2027. Đây nói cho chặt chẽ là động thái của private equity chứ không phải VC, nhưng cũng chính là khoảnh khắc mà cộng đồng VC Silicon Valley nhận thức rằng "lần đầu tiên một neo-cloud hệ TPU đã xuất hiện như một trục đối trọng trong một thế giới vốn nghiêng hẳn về neo-cloud hệ Nvidia". Nhiều đối tác VC ẩn danh đã chia sẻ: "Với thông báo TPU 8t / 8i, cuối cùng cũng đã đến thời đại mà chúng tôi tiến hành due diligence nghiêm túc với các lựa chọn ngoài Nvidia", và điều này đang trở thành chất xúc tác thúc đẩy chủ đề đầu tư của các VC Silicon Valley: "phi tập trung hóa quyền tiếp cận compute".

Lập trường đưa tin của từng tờ báo và từng trang web

Ian King của Bloomberg, trong bài viết đề ngày 22 tháng 4, đã định vị TPU 8t / 8i là "thách thức nghiêm túc nhất từ trước đến nay đối với thành trì của Nvidia", đề cập cùng lúc hợp đồng 5GW với Anthropic và thông báo liên doanh với Blackstone, và tổng kết rằng "Lần đầu tiên Wall Street hiểu rằng cuộc đua chip AI không còn là cuộc đua một ngựa nữa". Reuters với bút pháp thận trọng hơn, đã nhấn mạnh sự thật rằng chính Google vẫn cung cấp các instance Nvidia GPU (Vera Rubin NVL72) trên cùng cấu trúc Virgo, và cảnh báo rằng "đây là sự bổ sung chứ không phải thay thế hoàn toàn". Wall Street Journal tập trung vào cấu trúc phân công giữa Broadcom và MediaTek, đưa tin rằng giá mục tiêu trung bình Wall Street của cổ phiếu Broadcom đã được nâng lên 478 USD (khoảng 74.000 yên), và Brian Nowak của Morgan Stanley vào ngày 23 tháng 4 đã nâng giá mục tiêu từ 235 USD (khoảng 36.000 yên) lên 258 USD (khoảng 40.000 yên).

Giọng điệu của các phương tiện truyền thông chuyên về công nghệ có phần khác biệt. Tom's Hardware đã trình bày các bảng số chi tiết theo khung "đơn lẻ thì chip kém hơn Nvidia, nhưng khi mở rộng quy mô thì tổng chi phí sở hữu đảo ngược", và Dylan Patel của SemiAnalysis cũng viết trong bản tin rằng "Vi kiến trúc chỉ là một phần nhỏ trong chi phí thực sự của hạ tầng AI; kiến trúc hệ thống và tính linh hoạt triển khai mới là bản chất". Ben Thompson của Stratechery đã đăng tải cuộc phỏng vấn độc quyền với Thomas Kurian, CEO Google Cloud, và đánh giá rằng "10 năm tích lũy mà Google đã rèn giũa chính mình với tư cách là khách hàng đầu tiên (customer zero) cuối cùng đã đơm hoa kết trái thành sản phẩm có thể bán ra bên ngoài". Trong khi đó, Patrick Moorhead của Moor Insights & Strategy đã định khung rằng "TPU không phải 'đối đầu' với Nvidia, mà cạnh tranh ở cấp độ hệ thống giống như Apple Silicon", và đưa ra lập luận thận trọng rằng nên tránh kết luận cho đến khi có các bài đo benchmark bên thứ ba được đánh giá đồng cấp (MLPerf, InferenceMax).

Trong nước Nhật Bản, Nikkei, ASCII, HelenTech, GIGAZINE, Viện Nghiên cứu Tổng hợp AI v.v. đồng loạt đề cập đến luận điểm cấu trúc "chip riêng cho huấn luyện và suy luận" cũng như các con số "gấp 2,8 lần / 80% so với Ironwood" và "gấp 2 lần mỗi watt"; ASCII đã lấy nguyên văn tuyên bố của Google là "rút ngắn việc phát triển mô hình tiên tiến nhất từ vài tháng xuống vài tuần" làm tiêu đề. GIGAZINE nhấn mạnh "hiệu năng trên mỗi watt gấp 2 lần", ám chỉ rằng ràng buộc năng lượng sẽ trở thành trục cạnh tranh tiếp theo. Các đơn vị như AI Revolution Sha đã củng cố cấu trúc phân công Broadcom = Sunfish, MediaTek = Zebrafish, cùng với góc nhìn rằng điều này sẽ tạo ra sự thắt chặt mới xung quanh năng lực sản xuất CoWoS của TSMC.

Khách hàng và đường cầu ― "Máy chủ của công ty không đủ để phân bổ cho các nhà nghiên cứu nội bộ"

Đường cong nhu cầu của TPU thế hệ thứ 8 là dị biệt ngay cả khi so sánh với các thế hệ trước. Khách hàng lớn nhất Anthropic đã đảm bảo tối đa 1 triệu chip, dung lượng tính toán 5GW trong hợp đồng mới với Google, và khi tính cả hợp đồng bổ sung với AWS thì tổng cộng dự kiến đạt 10GW. CFO của Anthropic, Krishna Rao, đã công khai tuyên bố "hướng tới doanh thu hàng năm 30 tỷ USD (khoảng 4,6 nghìn tỷ yên) vào năm 2027", và TPU thế hệ thứ 8 được trông cậy làm cơ sở hậu thuẫn cho mục tiêu đó. Meta đã ký hợp đồng nhiều năm trị giá hàng tỷ USD với Google vào tháng 2 năm 2026, và theo các báo cáo, dự kiến sẽ đảm bảo 500.000–800.000 chip vào năm 2027. Apple đã áp dụng TPU làm backend cho phiên bản Gemini của Siri, và dự kiến sẽ chi tiêu ở quy mô khoảng 1 tỷ USD (khoảng 155 tỷ yên) hàng năm. Citadel Securities đã áp dụng TPU cho phần mềm nghiên cứu định lượng, và 17 phòng thí nghiệm quốc gia của Bộ Năng lượng Hoa Kỳ đang xây dựng nền tảng AI khoa học có tên "AI Co-Scientist" trên TPU. Các báo cáo gần đây cho thấy thậm chí OpenAI cũng đã bắt đầu đảm bảo một phần dung lượng TPU.

Như một bằng chứng cho nhu cầu vượt cung, TheNextWeb đưa tin rằng "Do Google ưu tiên cung cấp cho Anthropic ngay cả TPU dành cho các nhà nghiên cứu nội bộ, đã xảy ra tình trạng các nhóm Research nội bộ phải xếp hàng chờ TPU". Bank of America, dựa trên việc mở rộng bán hàng ra bên ngoài và triển khai Gemini 3 toàn diện, cho rằng doanh số bán dẫn AI của Broadcom trong cả năm 2026 có thể tăng hơn gấp đôi so với năm trước, và đến năm 2027 có thể hướng tới phạm vi 100 tỷ USD (khoảng 15,5 nghìn tỷ yên). Tổng đầu tư cơ sở hạ tầng AI của Big Tech vào năm 2026 ước tính vượt 800 tỷ USD (khoảng 124 nghìn tỷ yên), và một sự thay đổi cấu trúc đã bắt đầu, trong đó một tỷ lệ nhất định của phân bổ này dịch chuyển từ GPU Nvidia sang các ASIC tùy chỉnh như TPU, Trainium và Maia.

Bối cảnh với Nvidia ― Jensen Huang đã phản bác như thế nào

Jensen Huang, CEO của Nvidia, khi được hỏi quan điểm về TPU thế hệ thứ 8 trong podcast của Dwarkesh Patel, đã phản bác: "Anthropic là một trường hợp đặc biệt, không phải xu hướng. Nếu loại trừ Anthropic, nguồn tăng trưởng của TPU đến từ đâu? 100% phụ thuộc vào Anthropic". Huang cũng nhiều lần khiêu khích Google và Amazon rằng "nên công bố kết quả trên các benchmark công khai như MLPerf hay InferenceMax", đồng thời tuyên bố "chưa có nền tảng nào chứng minh được hiệu năng trên tổng chi phí sở hữu vượt qua Nvidia". Trong giới phân tích, trái ngược với những phát ngôn cứng rắn của Huang, các ước tính của IDC và Bernstein cho rằng thị phần thị trường suy luận (inference) của Nvidia có thể giảm từ mức trên 90% hiện tại xuống còn 20–30% vào năm 2028 đang lan rộng, và mối đe dọa từ ASIC tùy chỉnh trong thị trường suy luận đã bước vào giai đoạn không thể bỏ qua.

Tuy nhiên, bản thân Google cũng không tuyên bố "tổng chiến với Nvidia". Tại Cloud Next 2026, đã được công bố rằng các instance Nvidia Vera Rubin NVL72 sẽ được bán song song trên cùng nền tảng Virgo fabric, và CEO Thomas Kurian nhấn mạnh: "Việc tăng cường lựa chọn cho khách hàng là ưu tiên hàng đầu, và Nvidia vẫn tiếp tục là đối tác quan trọng". Ngay cả trong giới VC ở Silicon Valley, quan điểm chiếm ưu thế cũng đang là: "không phải lựa chọn nhị nguyên giữa Nvidia hay TPU, mà là kỷ nguyên đa-accelerator, lựa chọn silicon tối ưu cho từng workload". Việc Google không bán TPU ra ngoài hoàn toàn mà cơ bản chỉ cho phép truy cập thông qua Google Cloud cũng được diễn giải như một tín hiệu rằng "không có ý định phá hủy nền kinh tế kênh phân phối của Nvidia".

Các điểm cần theo dõi trong 12〜18 tháng tới

Điểm quan sát đầu tiên là thời điểm chính xác của việc phát hành rộng rãi (GA) dự kiến vào nửa cuối năm 2026. Google chỉ đề cập "nửa cuối năm 2026", và thời điểm này có thể dao động tùy thuộc vào tiến độ khởi động dây chuyền sản xuất CoWoS 2nm của TSMC – yếu tố then chốt quyết định năng lực sản xuất hàng loạt. Morgan Stanley dự đoán "Zebrafish của MediaTek sẽ đi vào sản xuất hàng loạt đúng kế hoạch vào nửa cuối năm 2026", trong khi HyperFRAME Research lưu ý rằng "việc triển khai đầy đủ sẽ diễn ra vào nửa cuối năm 2027, khi tiến trình 2nm của TSMC chính thức bước vào sản xuất hàng loạt quy mô lớn". Sự khác biệt giữa hai bên có thể được hiểu một cách hợp lý là sự khác nhau giữa giai đoạn cung cấp beta và giai đoạn triển khai chính thức ở cấp độ GW.

Điểm quan sát thứ hai là vòng MLPerf v5.0 và InferenceMax được tổ chức vào tháng 6–7 năm 2026. Như Huang đã nhiều lần yêu cầu, tâm điểm chú ý sẽ là liệu Google có lần đầu tiên công bố kết quả benchmark của bên thứ ba cho TPU 8t / 8i hay không, và nếu được công bố, luận điểm hiện tại rằng "kém hơn Nvidia về hiệu năng tuyệt đối nhưng vượt trội về hiệu quả chi phí" sẽ được định lượng hóa. Song song với đó, các chỉ số đo lường thực tế về chi phí suy luận và thông lượng trên TPU 8i đi kèm với việc phát hành Anthropic Claude 5 / Gemini 3 Pro đang trở thành mối quan tâm lớn nhất của giới truyền thông và nhà đầu tư.

Điểm quan sát thứ ba là tiến độ trung gian hướng tới việc vận hành giai đoạn một (500MW) của liên doanh Blackstone-Google vào năm 2027, cùng với sự xuất hiện của các neocloud TPU thứ hai và thứ ba tiếp nối xu hướng này. Nhiều quỹ VC tại Thung lũng Silicon đang khai thác "neocloud hệ TPU" như một chủ đề đầu tư mới, và sự chú ý đang đổ dồn vào việc liệu có doanh nghiệp nào tái hiện được tốc độ tăng trưởng bùng nổ mà CoreWeave và Lambda Labs đã đạt được trong hệ Nvidia sang hệ TPU hay không. Hơn nữa, vào mùa thu năm 2026, nhiều nguồn tin liên quan đang xì xào về khả năng khách hàng mega thứ ba và thứ tư ngoài Anthropic và Meta (chẳng hạn như OpenAI, Microsoft, hoặc xAI) sẽ công khai ký kết hợp đồng suy luận dựa trên TPU 8i.

Cuối cùng, với tư cách là điểm quan sát dài hạn, có thể kể đến thông báo về "TPU 9" hoặc thế hệ kế tiếp tương đương trong năm 2027. Broadcom có hợp đồng dài hạn với Google đến năm 2031 và dự kiến sẽ tiếp tục thiết kế và cung ứng, đồng thời MediaTek cũng được cho là sẽ từng bước đảm bảo năng lực sản xuất tương đương 120.000–150.000 wafer CoWoS vào năm 2027. Khoản đầu tư thiết bị AI 800 tỷ USD (khoảng 124 nghìn tỷ yên) của các ông lớn công nghệ trong năm 2026 sẽ được hỗ trợ một phần bởi "sức mua của thế hệ TPU 8", và đến năm 2027 con số này nhiều khả năng sẽ mở rộng lên vùng vượt 1 nghìn tỷ USD (hơn 155 nghìn tỷ yên). Đánh giá thực sự về TPU thế hệ thứ 8 sẽ được đưa ra trong khoảng thời gian từ cuối năm 2026 đến nửa đầu năm 2027, khi nó đối đầu trực tiếp với thế hệ Nvidia Vera Rubin Ultra, và đây sẽ là cột mốc mà các quỹ VC tại Thung lũng Silicon cần theo dõi sát sao nhất trong thời gian tới.