Apakah itu TPU
TPU (Tensor Processing Unit) ialah ASIC (litar bersepadu khusus aplikasi) milik Google yang direka sendiri untuk mempercepatkan inferens dan latihan rangkaian neural syarikat tersebut. Ia mempunyai seni bina yang menyingkirkan ciri-ciri tidak berkaitan seperti talian paip boleh ubah dan ray tracing yang dimiliki GPU tujuan umum, lalu menumpukan sepenuhnya kepada operasi pendaraban matriks (MatMul) dan operasi pengurangan. TPU generasi pertama diperkenalkan secara dalaman pada tahun 2015, dan CEO ketika itu, Sundar Pichai, mendedahkan kewujudannya kepada umum buat kali pertama pada Google I/O 2016. Sejak itu, Google telah memuatkan HBM pada TPU v2 untuk diperluaskan bagi tujuan latihan, memperkenalkan penyejukan cecair pada v3, menubuhkan fabrik torus 3D melalui suis litar optik (OCS) pada v4 dan v5, serta berusaha mencapai keseimbangan antara latihan berskala besar dan inferens berkelajuan tinggi pada generasi keenam "Trillium" dan generasi ketujuh "Ironwood".
Dari sudut reka bentuk, cirinya terletak pada tatasusunan sistolik yang dikenali sebagai unit operasi matriks (MXU), memori jalur lebar ultra tinggi melalui HBM, serta "fabrik scale-up" yang menganggap keseluruhan pod sebagai satu mesin logik tunggal. Sementara GPU Nvidia menyatukan nod-nod individu melalui NVLink dan InfiniBand, TPU pula berpegang pada falsafah membesarkan ruang memori kongsi yang koheren pada peringkat perkakasan untuk menampung satu tugasan secara keseluruhan, dan perbezaan terbesarnya dengan ASIC syarikat lain ialah ia dikendalikan secara bersepadu dengan tindanan perisian buatan Google seperti JAX dan Pathways. Dylan Patel dari SemiAnalysis menggambarkan keadaan ini sebagai "kelebihan pada seni bina sistem dan bukan mikroseni bina", dan meletakkannya sebagai sumber kelebihan kos pemilikan keseluruhan struktur Google Cloud berbanding Microsoft Azure dan Amazon EC2.
Impak TPU 8t dan TPU 8i — "Titik Pencabangan" yang Tiba pada Generasi Ke-8
Isu paling utama bagi generasi ke-8 ialah hakikat bahawa Google buat pertama kalinya membahagikan TPU kepada dua cip dalam satu barisan. "TPU 8t" untuk latihan (nama kod dalaman Sunfish) direka bentuk dengan Broadcom mengetuai usaha, dan superpod yang terdiri daripada 9,600 cip dilengkapi dengan 2 petabait HBM kongsi serta 121 ExaFLOPs (FP4), meningkatkan prestasi-harga latihan sehingga 2.8 kali ganda berbanding Ironwood. Sementara itu, "TPU 8i" untuk inferens dan inferens masa-inferens (penaakulan) (nama kod Zebrafish) direka bentuk oleh rakan kongsi baharu MediaTek, dengan pod yang terdiri daripada 1,152 cip memuatkan HBM 288GB dan SRAM atas cip 384MB (3 kali ganda berbanding generasi sebelumnya), menambah baik prestasi-harga inferens sebanyak 80% berbanding Ironwood. Kedua-duanya dikatakan masih ketinggalan dalam julat 3 berbanding 1 dari segi prestasi pengiraan mutlak setiap cip berbanding Nvidia Vera Rubin R200 atau AMD MI455X, tetapi Google mendakwa bahawa pada peringkat pod, dan seterusnya pada peringkat pusat data, kos pemilikan keseluruhan serta throughput boleh bersaing setanding atau lebih baik.
Inti kejutan ini terdiri daripada tiga perkara. Pertama, Google secara praktikal telah meninggalkan konsep "cip AI tujuan umum." HyperFRAME Research menilai ini sebagai "pengakuan tersirat terhadap fakta bahawa profil beban prapelatihan dan inferens selari besar-besaran ejen telah menyimpang terlalu jauh," dan menunjukkan bahawa Google telah mengubah haluan kepada pengkhususan dan bukannya pengoptimuman hibrid. Kedua, sistem monopoli Broadcom telah runtuh dengan kemasukan MediaTek; barisan penganalisis yang diketuai oleh Vivek Arya dari Bank of America menganggarkan bahawa ini akan menaikkan ASP setiap TPU daripada AS$5,000–6,000 (kira-kira ¥770,000–¥930,000) sebelum ini kepada AS$12,000–15,000 (kira-kira ¥1.86 juta–¥2.32 juta). Ketiga, Anthropic telah diletakkan sebagai pelanggan terbesar yang menggunakan sehingga 1 juta cip, dan Meta, inferens Siri melalui Apple, Citadel Securities, 17 makmal kebangsaan Jabatan Tenaga AS, malah OpenAI juga telah mula menempah kapasiti TPU. Tiga pergerakan serentak — pengkhususan, perolehan dua sumber, dan pengembangan jualan luar — itulah yang mengangkat Cloud Next 2026 daripada "sekadar acara tahunan" kepada "titik perubahan struktur dalam pasaran infrastruktur AI."
Penerokaan Teknikal ― Boardfly dan Inovasi Reka Bentuk Fabrik
TPU 8t mewarisi torus 3D konvensional sambil memperkenalkan operasi natif FP4 dan TPUDirect RDMA. Setiap cip menghasilkan 12.6 FP4 PFLOPs dan membekalkan data dari HBM3e 216GB pada lebar jalur 6,528GB/s. Yang patut diberi perhatian ialah peningkatan ICI (Inter-Chip Interconnect) kepada 19.2Tbps dan percepatan IO 10 kali ganda melalui TPUDirect Storage yang bersambung terus dengan storan, yang menyokong dakwaan Google bahawa kitaran latihan satu tugasan dapat dipendekkan dari beberapa bulan ke beberapa minggu. Tambahan pula, pada lapisan fabrik, "Virgo Network" generasi baharu menghubungkan lebih daripada 134,000 cip TPU 8t dengan lebar jalur biseksi dwiarah 47 petabit sesaat, dan apabila digabungkan dengan Pathways, ia direka bentuk untuk membina kelompok latihan tunggal berskala satu juta cip. Keupayaan untuk mengekalkan "goodput" 97% sebagai petunjuk kadar penggunaan apabila digabungkan dengan suis litar optik (OCS) juga memiliki nilai yang tidak terhingga bagi pembangunan model asas yang memerlukan latihan berterusan jangka panjang.
Reka bentuk TPU 8i melangkah lebih jauh lagi. Perubahan struktur terbesar ialah pembuangan torus 3D dan penggunaan topologi baharu yang dipanggil "Boardfly" yang diinspirasikan oleh penyelidikan radiks tinggi tahun 2008. Apabila dibandingkan dalam domain berskala 1,024 cip, torus 3D memerlukan 16 hop untuk komunikasi terjauh, manakala Boardfly hanya memerlukan 7 hop, iaitu diameter rangkaian dikurangkan sebanyak 56%. Ini membawa makna yang menentukan bagi beban kerja yang memerlukan komunikasi semua-ke-semua yang tidak dapat diramalkan seperti model Mixture-of-Experts dan inferens semasa inferens (chain-of-thought). Selain itu, dengan membuang sepenuhnya blok SparseCore Ironwood dan menggantikannya dengan Collectives Acceleration Engine (CAE) yang baru ditubuhkan pada die teras-chiplet, latensi kolektif atas-cip dalam penyahkodan autoregresif dapat dikurangkan sehingga satu per lima. Patrick Moorhead menilainya sebagai "pertaruhan yang tepat untuk era ejen yang mengoptimumkan latensi dan bukan lebar jalur". Selain itu, kedua-dua cip menggunakan "Axion" berasaskan Arm milik Google sendiri sebagai CPU hos, dan dengan menggabungkan penyejukan cecair generasi keempat, prestasi setiap watt dinaikkan dua kali ganda berbanding generasi sebelumnya sambil meningkatkan ketumpatan haba setiap rak. Nod pembuatan dilaporkan sebagai proses kelas 2nm TSMC, tetapi Google tidak menyatakannya secara rasmi, dan ada juga yang berpandangan bahawa ia adalah siri TSMC N3, jadi ini merupakan bidang yang memerlukan kehatian-hatian.
Pandangan VC Silicon Valley — "Pisau Telah Dihunus"
VC utama Silicon Valley menerima pengumuman TPU 8t / 8i sebagai peristiwa yang mempercepatkan "peralihan daripada masa depan di mana Nvidia menguasai 99% pasaran kepada masa depan di mana ia menguasai 80%". Dalam tesis "Theory of Well" yang diterajui oleh rakan kongsi Andreessen Horowitz, Anjney Midha, nilai yang paling lestari dalam tindanan AI bukannya terkumpul pada aplikasi, tetapi pada "perigi (well)", iaitu lapisan infrastruktur yang memegang titik halangan (chokepoint). a16z mengumumkan bahawa mereka mengumpul sejumlah AS$15 bilion (kira-kira ¥2.3 trilion) pada tahun 2025, dan akan memperuntukkan AS$1.7 bilion (kira-kira ¥260 bilion) daripadanya kepada infrastruktur AI, tetapi memo terbaru syarikat itu menggariskan bahawa "tindakan Google memajukan TPU sendiri, Amazon memajukan Trainium / Inferentia, dan Microsoft memajukan Maia adalah peperangan untuk mempertahankan kedudukan perigi sehingga ke titik mati, dan syarikat permulaan tidak seharusnya menyerang secara berhadapan ke sini". Dengan kata lain, a16z mentafsirkan kemunculan TPU 8t / 8i sebagai isyarat untuk mengesahkan semula di mana portfolio mereka tidak seharusnya bertaruh.
Sequoia Capital dan Founders Fund menahan diri daripada memberi komen rasmi, tetapi liputan media industri melaporkan bahawa kedua-duanya telah mengalihkan keputusan pelaburan mereka terhadap syarikat model asas seperti Anthropic, xAI, Cohere, dan Mistral kepada bentuk yang sangat bergantung kepada "kapasiti pengkomputeran yang boleh diakses dan keluk harganya". Pada 24 April 2026, Anthropic menerima pelaburan tambahan sehingga AS$40 bilion (kira-kira ¥6.2 trilion) daripada Google dan kapasiti TPU 5 gigawatt, dengan penilaian pasca-wang mencapai AS$350 bilion (kira-kira ¥54 trilion). Sejurus selepas itu, mereka memeterai kontrak 5GW dengan AWS, memastikan jumlah kapasiti pengkomputeran sebanyak 10GW, dan keuntungan tersembunyi daripada pusingan yang diterajui oleh Sequoia pada tahun 2025 telah berkembang pesat. Dalam dana AI bernilai AS$3.5 bilion (kira-kira ¥540 bilion) yang diumumkan oleh Kleiner Perkins pada Mac 2026 juga, dilaporkan terdapat pergerakan untuk mencari peluang penyertaan dalam neocloud baharu (seperti usaha sama Blackstone-Google) yang berkisar TPU 8t.
Pergerakan yang paling simbolik ialah pengumuman Blackstone pada 19 Mei 2026 bahawa ia akan komited dengan ekuiti AS$5 bilion (kira-kira ¥780 bilion) kepada syarikat usaha sama dengan Google, dan akan mengoperasikan pusat data berasaskan TPU 500MW pada tahun 2027. Secara tegasnya, ini adalah pergerakan ekuiti persendirian dan bukan VC, tetapi ia juga merupakan saat komuniti VC Silicon Valley menyedari bahawa "buat pertama kalinya, neocloud berasaskan TPU telah muncul sebagai paksi penentang di dunia yang dahulunya didominasi sepenuhnya oleh neocloud berasaskan Nvidia". Beberapa rakan kongsi VC menyatakan secara tanpa nama bahawa "dengan pengumuman TPU 8t / 8i, akhirnya tibalah era untuk membuat usaha wajar (due diligence) secara serius terhadap selain Nvidia", dan ini menjadi pemangkin yang menyokong tema pelaburan VC Silicon Valley iaitu "desentralisasi akses pengkomputeran".
Pendirian laporan setiap akhbar dan setiap laman web
Ian King dari Bloomberg, dalam artikel bertarikh 22 April, meletakkan TPU 8t / 8i sebagai "cabaran paling serius setakat ini terhadap kubu kuat Nvidia", dan dengan mengangkat secara serentak kontrak 5GW untuk Anthropic dan pengumuman JV bersama Blackstone, merumuskan bahawa "Wall Street buat pertama kalinya memahami bahawa persaingan cip AI bukan lagi perlumbaan satu kuda". Reuters, dengan nada yang lebih berhati-hati, menekankan fakta bahawa Google sendiri masih menyediakan instans GPU Nvidia (Vera Rubin NVL72) di atas fabrik Virgo yang sama, dan memberi amaran bahawa ia "bersifat pelengkap dan bukan penggantian sepenuhnya". Wall Street Journal memberi tumpuan kepada struktur pembahagian kerja antara Broadcom dan MediaTek, melaporkan bahawa harga sasaran purata Wall Street bagi saham Broadcom telah dinaikkan kepada $478 (kira-kira 74,000 yen), dan bahawa Brian Nowak dari Morgan Stanley telah menaikkan harga sasarannya daripada $235 (kira-kira 36,000 yen) kepada $258 (kira-kira 40,000 yen) pada 23 April.
Nada media khusus teknologi pula agak berbeza. Tom's Hardware mengemukakan jadual angka yang terperinci dengan bingkai "cip secara individu lebih rendah daripada Nvidia, tetapi terbalik dari segi jumlah kos pemilikan apabila diskalakan", dan Dylan Patel dari SemiAnalysis juga menulis dalam newsletternya bahawa "mikroarkitektur hanyalah sebahagian kecil daripada kos sebenar infrastruktur AI; seni bina sistem dan fleksibiliti penggunaanlah yang menjadi intipatinya". Ben Thompson dari Stratechery menerbitkan temu bual eksklusif dengan Thomas Kurian, CEO Google Cloud, dan menilai bahawa "akumulasi sepuluh tahun di mana Google telah mengasah diri sendiri sebagai pelanggan teras (customer zero) akhirnya membuahkan hasil dalam bentuk produk yang boleh dijual ke luar". Sementara itu, Patrick Moorhead dari Moor Insights & Strategy membingkaikannya sebagai "TPU bukan 'berdepan' Nvidia, sebaliknya bersaing pada tahap sistem seperti Apple Silicon", dan menunjukkan pandangan berhati-hati bahawa kita harus mengelak daripada membuat kesimpulan muktamad sehingga keluar tanda aras pihak ketiga yang ditinjau rakan sebaya (MLPerf, InferenceMax).
Di dalam negara Jepun, Nikkei Shimbun, ASCII, HelenTech, GIGAZINE, AI Sogo Kenkyujo dan lain-lain hampir kesemuanya secara serentak mengangkat isu struktur "cip berbeza untuk latihan dan inferens" serta angka "2.8 kali / 80% berbanding Ironwood" dan "2 kali per watt"; ASCII mengambil bulat-bulat dakwaan Google iaitu "memendekkan pembangunan model termaju daripada beberapa bulan kepada beberapa minggu" sebagai tajuk utama. GIGAZINE menekankan "prestasi per watt 2 kali ganda", dan menyiratkan bahawa kekangan tenaga akan menjadi paksi persaingan seterusnya. AI Kakumeisha dan lain-lain mengukuhkan rangka pembahagian kerja Broadcom = Sunfish, MediaTek = Zebrafish, serta pandangan bahawa ini akan mewujudkan ketegangan baharu seputar kapasiti pengeluaran TSMC CoWoS.
Pelanggan dan keluk permintaan — "Pelayan syarikat kami tidak mencukupi untuk penyelidik dalaman"
Keluk permintaan TPU generasi ke-8 adalah berbeza berbanding generasi-generasi sebelumnya. Pelanggan terbesarnya, Anthropic, telah menjamin sehingga 1 juta cip dan kapasiti pengkomputeran 5GW melalui kontrak baharu dengan Google, dan apabila digabungkan dengan kontrak tambahan bersama AWS, jumlah keseluruhannya dijangka mencecah 10GW. CFO Anthropic, Krishna Rao, secara terbuka menyatakan "kami menyasarkan pendapatan tahunan sebanyak $30 bilion (kira-kira ¥4.6 trilion) menjelang 2027", dan TPU generasi ke-8 dijadikan sandaran untuk merealisasikan sasaran tersebut. Pada Februari 2026, Meta memeterai kontrak berbilang tahun bernilai berbilion-bilion dolar dengan Google, dan menurut laporan media, ia dijangka menjamin antara 500,000 hingga 800,000 cip menjelang 2027. Apple pula menggunakan TPU untuk backend versi Gemini bagi Siri, dengan perbelanjaan dijangka berada pada skala kira-kira $1 bilion (kira-kira ¥155 bilion) setahun. Citadel Securities telah mengadaptasi TPU untuk perisian penyelidikan kuantitatifnya, manakala 17 makmal kebangsaan di bawah Jabatan Tenaga AS sedang membina platform AI saintifik bernama "AI Co-Scientist" di atas TPU. Laporan terkini juga mendedahkan bahawa OpenAI sendiri mula menjamin sebahagian daripada kapasiti TPU.
Sebagai bukti permintaan yang melebihi penawaran, TheNextWeb melaporkan bahawa "Google mengutamakan pembekalan TPU kepada Anthropic sehinggakan TPU yang sepatutnya untuk penyelidik dalaman pun diserahkan, mengakibatkan pasukan Research dalaman terpaksa beratur menunggu giliran untuk mendapatkan TPU." Bank of America berpendapat bahawa berdasarkan pengembangan jualan luaran dan pelancaran penuh Gemini 3, jualan semikonduktor AI Broadcom dijangka meningkat lebih daripada dua kali ganda tahun ke tahun untuk tahun kewangan 2026, dan boleh menyasarkan julat $100 bilion (kira-kira ¥15.5 trilion) menjelang 2027. Jumlah keseluruhan pelaburan infrastruktur AI oleh Big Tech pada 2026 dianggarkan melebihi $800 bilion (kira-kira ¥124 trilion), dan perubahan struktur telah pun bermula di mana sebahagian peratusan tertentu daripada peruntukan tersebut beralih daripada GPU Nvidia kepada ASIC tersuai seperti TPU, Trainium, dan Maia.
Komposisi dengan Nvidia ― Bagaimana Jensen Huang Membalas Hujah
CEO Nvidia, Jensen Huang, ketika ditanya pandangannya tentang TPU generasi ke-8 dalam podcast Dwarkesh Patel, membantah dengan berkata, "Anthropic adalah kes khas, bukan trend. Jika Anthropic dikecualikan, di manakah sumber pertumbuhan TPU? Ia bergantung 100% kepada Anthropic." Huang juga berulang kali mencabar Google dan Amazon dengan kata-kata, "Mereka patut menunjukkan hasil pada penanda aras awam seperti MLPerf dan InferenceMax," dan berkata, "Tiada siapa yang dapat menunjukkan platform yang mengatasi Nvidia dari segi prestasi setiap kos pemilikan keseluruhan." Dalam kalangan penganalisis, bertentangan dengan kenyataan optimistik Huang, anggaran daripada IDC dan Bernstein bahawa bahagian pasaran inferens Nvidia mungkin merosot daripada lebih 90% pada masa ini kepada 20–30% menjelang 2028 semakin tersebar luas, dan ancaman ASIC tersuai dalam pasaran inferens telah memasuki tahap yang tidak boleh diabaikan.
Walau bagaimanapun, Google sendiri tidak mengisytiharkan "peperangan menyeluruh terhadap Nvidia." Pada Cloud Next 2026, didedahkan bahawa instans Nvidia Vera Rubin NVL72 akan dijual bersama atas fabrik Virgo yang sama, dan CEO Thomas Kurian menegaskan, "Keutamaan tertinggi adalah meningkatkan pilihan pelanggan, dan Nvidia kekal sebagai rakan kongsi penting." Dalam kalangan VC Silicon Valley juga, pandangan yang dominan ialah "bukan pilihan antara Nvidia atau TPU, tetapi era multi-pemecut di mana silikon optimum dipilih untuk setiap beban kerja." Hakikat bahawa Google tidak menjual TPU secara luaran sepenuhnya, dan pada asasnya akses adalah melalui Google Cloud, juga ditafsirkan sebagai isyarat bahawa "tiada niat untuk memusnahkan ekonomi saluran Nvidia."
Titik pemerhatian untuk 12–18 bulan akan datang
Titik pemerhatian pertama ialah masa tepat ketersediaan umum (GA) yang dijadualkan pada separuh kedua tahun 2026. Google hanya menyatakan "separuh kedua tahun 2026", dan ia berkemungkinan beralih ke hadapan atau ke belakang bergantung pada peningkatan barisan pengeluaran CoWoS 2nm TSMC yang memegang kunci kapasiti pengeluaran besar-besaran. Morgan Stanley meramalkan bahawa "Zebrafish MediaTek akan memasuki pengeluaran besar-besaran pada separuh kedua tahun 2026 seperti yang dijadualkan", manakala HyperFRAME Research menyatakan nota bahawa "pengerahan penuh adalah pada separuh kedua tahun 2027 apabila TSMC 2nm beralih ke pengeluaran besar-besaran secara penuh". Adalah wajar untuk melihat perbezaan antara kedua-duanya sebagai perbezaan antara penyediaan beta dan pengerahan berskala GW yang sepenuhnya.
Titik pemerhatian kedua ialah pusingan MLPerf v5.0 dan InferenceMax yang akan diadakan pada Jun–Julai 2026. Seperti yang berulang kali dituntut oleh Huang, tumpuan adalah pada sama ada Google akan mendedahkan keputusan penanda aras pihak ketiga untuk TPU 8t / 8i buat kali pertama, dan jika didedahkan, hujah semasa bahawa "kalah kepada Nvidia dalam prestasi mutlak tetapi menang dalam kecekapan kos" akan dikuantifikasi. Selari dengan itu, pengukuran sebenar kos inferens dan daya pemprosesan pada TPU 8i yang disertakan dengan pelepasan Anthropic Claude 5 / Gemini 3 Pro telah menjadi minat terbesar media dan pelabur.
Titik pemerhatian ketiga ialah kemajuan pertengahan ke arah operasi pada tahun 2027 bagi peringkat pertama (500MW) Usaha Sama Blackstone-Google, dan kemunculan neocloud TPU kedua dan ketiga yang akan mengikutinya. Ramai VC Silicon Valley sedang menggali "neocloud berasaskan TPU" sebagai tema pelaburan baharu, dan tumpuan adalah pada sama ada akan muncul pengendali yang dapat mengulangi pertumbuhan pesat yang dinikmati oleh CoreWeave dan Lambda Labs dalam ekosistem Nvidia, kali ini dalam ekosistem TPU. Tambahan pula, beberapa sumber berbisik bahawa pada musim luruh 2026, pelanggan mega ketiga dan keempat selain Anthropic dan Meta (seperti OpenAI, Microsoft, atau xAI) berkemungkinan akan mengumumkan secara terbuka kontrak inferens berasaskan TPU 8i.
Akhir sekali, sebagai titik pemerhatian jangka panjang, terdapat pengumuman "TPU 9" atau generasi seterusnya yang setara pada tahun 2027. Broadcom dijangka mengekalkan kontrak jangka panjang dengan Google sehingga 2031 dan terus dengan reka bentuk dan bekalan, dan MediaTek juga dilaporkan akan secara berperingkat memperoleh kapasiti pengeluaran setara dengan 120,000–150,000 wafer CoWoS menjelang 2027. Pelaburan modal AI Big Tech sebanyak USD800 bilion (kira-kira ¥124 trilion) pada tahun 2026 sebahagiannya disokong oleh "kuasa beli generasi TPU 8", dan pada tahun 2027 ini berkemungkinan tinggi akan berkembang ke dalam wilayah melebihi USD1 trilion (lebih ¥155 trilion). Penilaian sebenar TPU generasi ke-8 akan dijatuhkan antara akhir 2026 dan separuh pertama 2027, apabila ia berhadapan secara langsung dengan generasi Nvidia Vera Rubin Ultra, dan ini akan menjadi pencapaian paling penting yang harus diperhatikan oleh VC Silicon Valley pada masa hadapan.