Apa itu TPU
TPU (Tensor Processing Unit) adalah ASIC (sirkuit terpadu untuk aplikasi spesifik) eksklusif yang dirancang Google untuk mempercepat inferensi dan pelatihan jaringan saraf milik mereka sendiri, dengan arsitektur yang memangkas fitur-fitur tidak relevan yang dimiliki GPU serbaguna—seperti pipeline variabel dan ray tracing—dan berfokus sepenuhnya pada operasi perkalian matriks (MatMul) serta operasi reduksi. TPU generasi pertama diperkenalkan secara internal pada tahun 2015, dan CEO saat itu, Sundar Pichai, pertama kali mengumumkan keberadaannya kepada publik pada Google I/O 2016. Sejak itu, Google memperluas TPU v2 dengan menyematkan HBM untuk keperluan pelatihan, memperkenalkan pendinginan cair pada v3, membangun fabric 3D torus melalui Optical Circuit Switch (OCS) pada v4 dan v5, serta berupaya mewujudkan kesatuan antara pelatihan skala besar dan inferensi berkecepatan tinggi pada generasi keenam "Trillium" dan generasi ketujuh "Ironwood".
Ciri khas dari sisi desain terletak pada systolic array yang disebut Matrix Multiply Unit (MXU), memori berbandwidth ultra-tinggi melalui HBM, dan "scale-up fabric" yang memperlakukan keseluruhan pod sebagai satu mesin logis tunggal. Berbeda dengan GPU Nvidia yang menyatukan node-node individual melalui NVLink dan InfiniBand, TPU mengusung filosofi memperbesar ruang memori bersama yang koheren secara perangkat keras untuk menampung seluruh satu pekerjaan secara utuh, dan perbedaan terbesarnya dengan ASIC perusahaan lain adalah operasionalisasinya yang menyatu dengan tumpukan perangkat lunak buatan Google seperti JAX dan Pathways. Dylan Patel dari SemiAnalysis menggambarkan hal ini sebagai "keunggulan pada arsitektur sistem, bukan mikroarsitektur", dan memposisikannya sebagai sumber keunggulan struktural Google Cloud dalam total biaya kepemilikan (TCO) dibandingkan Microsoft Azure dan Amazon EC2.
Dampak TPU 8t dan TPU 8i — "Titik Percabangan" yang Tiba di Generasi ke-8
Poin perdebatan terbesar dari generasi ke-8 adalah bahwa Google untuk pertama kalinya membagi TPU menjadi dua chip dalam satu lini. "TPU 8t" untuk pelatihan (nama kode internal Sunfish) dirancang dengan Broadcom sebagai pemimpin desain, di mana super-pod yang terdiri dari 9.600 chip dilengkapi dengan 2 petabyte HBM bersama dan 121 ExaFLOPs (FP4), meningkatkan performa harga pelatihan hingga 2,8 kali lipat dibandingkan Ironwood. Sementara itu, "TPU 8i" untuk inferensi dan penalaran saat inferensi (reasoning) (nama kode Zebrafish) dirancang oleh mitra baru MediaTek, dengan pod yang terdiri dari 1.152 chip yang memuat HBM 288GB dan SRAM on-chip 384MB (3 kali lipat dibandingkan generasi sebelumnya), meningkatkan performa harga inferensi sebesar 80% dibandingkan Ironwood. Keduanya disebut masih tertinggal dalam rasio sekitar 3 banding 1 terhadap Nvidia Vera Rubin R200 dan AMD MI455X dalam hal performa komputasi absolut per chip, namun Google mengklaim bahwa dalam hal total biaya kepemilikan dan throughput per pod, bahkan per pusat data, mereka mampu bersaing setara atau bahkan lebih unggul.
Inti dari dampak ini ada tiga. Pertama, Google secara substansial telah meninggalkan konsep "chip AI serba guna". HyperFRAME Research menilai ini sebagai "pengakuan implisit terhadap fakta bahwa profil beban antara pra-pelatihan dan inferensi paralel masif agen telah terlalu menyimpang", dan menunjukkan bahwa Google telah memilih spesialisasi alih-alih optimasi hibrida. Kedua, sistem monopoli Broadcom telah runtuh dengan masuknya MediaTek; para analis yang dipimpin oleh Vivek Arya dari Bank of America memperkirakan bahwa ASP per TPU akan naik dari kisaran 5.000–6.000 dolar (sekitar 770.000–930.000 yen) sebelumnya menjadi 12.000–15.000 dolar (sekitar 1.860.000–2.320.000 yen). Ketiga, Anthropic telah diposisikan sebagai pelanggan terbesar yang menggunakan hingga 1 juta chip, dan Meta, inferensi Siri melalui Apple, Citadel Securities, 17 laboratorium nasional Departemen Energi AS, bahkan OpenAI pun mulai mengamankan kapasitas TPU. Tiga pergerakan yang terjadi secara bersamaan—spesialisasi, pengadaan dari dua sumber, dan ekspansi penjualan eksternal—itulah yang mengangkat Cloud Next 2026 dari "sekadar acara tahunan" menjadi "titik perubahan struktural pasar infrastruktur AI".
Pendalaman Teknis — Inovasi Desain Boardfly dan Fabric
TPU 8t mewarisi struktur torus 3D konvensional sembari memperkenalkan komputasi FP4 native dan TPUDirect RDMA. Setiap chip menghasilkan 12,6 FP4 PFLOPs dan memasok data dari HBM3e berkapasitas 216GB dengan bandwidth 6.528GB/s. Yang patut diperhatikan adalah peningkatan ICI (Inter-Chip Interconnect) menjadi 19,2Tbps serta percepatan IO 10 kali lipat melalui TPUDirect Storage yang terhubung langsung ke penyimpanan, yang mendukung klaim Google bahwa siklus pelatihan satu pekerjaan dapat dipersingkat dari beberapa bulan menjadi beberapa minggu. Lebih jauh lagi, pada lapisan fabric, "Virgo Network" generasi baru menghubungkan lebih dari 134.000 chip TPU 8t dengan bandwidth bisection dua arah 47 petabit per detik, dan jika dikombinasikan dengan Pathways, dirancang untuk dapat membangun cluster pelatihan tunggal berskala 1 juta chip. Kemampuan mempertahankan "goodput" 97% sebagai indikator tingkat operasional dengan dikombinasikan bersama Optical Circuit Switch (OCS) juga memiliki nilai yang tak terhingga bagi pengembangan model fondasi yang memerlukan pelatihan berkelanjutan jangka panjang.
Desain TPU 8i melangkah lebih jauh lagi. Perubahan struktural terbesarnya adalah meninggalkan torus 3D dan mengadopsi topologi baru bernama "Boardfly" yang terinspirasi dari penelitian high-radix tahun 2008. Jika dibandingkan pada domain berskala 1.024 chip, torus 3D memerlukan 16 hop untuk komunikasi terjauh, sedangkan Boardfly hanya 7 hop—artinya diameter jaringan berkurang sebesar 56%. Hal ini memiliki makna yang menentukan pada beban kerja yang memerlukan komunikasi all-to-all yang tidak dapat diprediksi, seperti model Mixture-of-Experts atau penalaran saat inferensi (chain-of-thought). Selain itu, dengan menghapus seluruh blok SparseCore Ironwood dan menggantinya dengan Collectives Acceleration Engine (CAE) yang baru dibangun di atas die core-chiplet, latensi collective on-chip pada decoding autoregresif berhasil dikurangi hingga seperlima. Patrick Moorhead menilai hal ini sebagai "taruhan yang tepat untuk era agen yang mengoptimalkan latensi, bukan bandwidth." Selain itu, kedua chip mengadopsi "Axion" berbasis Arm milik Google sendiri sebagai host CPU, dan dengan mengombinasikan pendinginan cair generasi keempat, kepadatan termal per rak ditingkatkan sekaligus performa per watt didorong menjadi 2 kali lipat dibandingkan generasi sebelumnya. Node manufakturnya disebut-sebut sebagai proses kelas 2nm dari TSMC, tetapi Google tidak menyatakannya secara resmi, dan ada pula pandangan bahwa itu adalah seri TSMC N3, sehingga area ini memerlukan kehati-hatian.
Tanggapan VC Silicon Valley — "Pisau Telah Dicabut"
VC utama Silicon Valley menerima pengumuman TPU 8t / 8i sebagai peristiwa yang mempercepat "transisi dari masa depan di mana Nvidia mengambil 99% pasar menjadi masa depan di mana ia mengambil 80%". Dalam tesis "Theory of Well" yang dipimpin oleh partner Andreessen Horowitz, Anjney Midha, dinyatakan bahwa nilai paling berkelanjutan dalam tumpukan AI tidak terakumulasi pada aplikasi melainkan pada "sumur (well)", yaitu lapisan infrastruktur yang menguasai titik cekik (chokepoint). a16z mengumumkan telah menggalang total 15 miliar dolar (sekitar 2,3 triliun yen) pada 2025, dan akan mengalokasikan 1,7 miliar dolar (sekitar 260 miliar yen) di antaranya untuk infrastruktur AI; namun dalam memo terbarunya, perusahaan menyusun pandangan bahwa "Google mendorong TPU sendiri, Amazon mendorong Trainium / Inferentia, dan Microsoft mendorong Maia adalah perang untuk mempertahankan posisi sumur sampai mati, dan startup tidak seharusnya menyerbu lurus ke sini". Dengan kata lain, a16z membaca kemunculan TPU 8t / 8i sebagai sinyal untuk mengonfirmasi ulang di mana portofolio mereka sebaiknya tidak bertaruh.
Sequoia Capital dan Founders Fund menahan komentar resmi, namun dalam liputan media industri dilaporkan bahwa keduanya telah menggeser keputusan investasi mereka terhadap perusahaan model fondasi seperti Anthropic, xAI, Cohere, dan Mistral menjadi bentuk yang sangat bergantung pada "kapasitas komputasi yang dapat diakses dan kurva harganya". Pada 24 April 2026, Anthropic menerima investasi tambahan hingga 40 miliar dolar (sekitar 6,2 triliun yen) dan kapasitas TPU 5 gigawatt dari Google, sehingga valuasi pasca-pendanaannya mencapai 350 miliar dolar (sekitar 54 triliun yen). Tepat setelah itu Anthropic juga menandatangani kontrak 5GW dengan AWS, sehingga total mengamankan kapasitas komputasi 10GW, dan keuntungan tersembunyi (unrealized gain) dari putaran pendanaan yang dipimpin Sequoia pada 2025 berkembang pesat. Pada dana AI senilai 3,5 miliar dolar (sekitar 540 miliar yen) yang diumumkan Kleiner Perkins pada Maret 2026 pun, dilaporkan adanya gerakan untuk mencari peluang berpartisipasi dalam neocloud baru seputar TPU 8t (seperti usaha patungan Blackstone-Google).
Gerakan paling simbolis adalah pengumuman pada 19 Mei 2026 bahwa Blackstone berkomitmen menyetorkan ekuitas 5 miliar dolar (sekitar 780 miliar yen) ke perusahaan patungan dengan Google, dan akan mengoperasikan pusat data berbasis TPU berkapasitas 500MW pada 2027. Secara ketat ini adalah gerakan private equity, bukan VC, namun ini juga merupakan momen ketika komunitas VC Silicon Valley menyadari bahwa "untuk pertama kalinya, neocloud berbasis TPU muncul sebagai poros tandingan, di dunia yang sebelumnya didominasi sepenuhnya oleh neocloud berbasis Nvidia". Beberapa partner VC secara anonim mengatakan, "Dengan pengumuman TPU 8t / 8i, akhirnya tiba era untuk melakukan due diligence serius terhadap pihak selain Nvidia", dan ini menjadi katalis yang mendorong tema investasi VC Silicon Valley, yaitu "desentralisasi akses komputasi".
Sikap pemberitaan masing-masing surat kabar dan situs
Ian King dari Bloomberg, dalam artikelnya bertanggal 22 April, memposisikan TPU 8t / 8i sebagai "tantangan paling serius yang pernah ada terhadap benteng Nvidia," dan dengan mengangkat kontrak 5GW untuk Anthropic serta pengumuman JV Blackstone secara bersamaan, ia menyimpulkan bahwa "Wall Street untuk pertama kalinya memahami bahwa persaingan chip AI bukan lagi perlombaan satu kuda." Reuters dengan nada yang lebih hati-hati menekankan fakta bahwa Google sendiri masih menyediakan instance GPU Nvidia (Vera Rubin NVL72) di atas fabric Virgo yang sama, dan mengingatkan bahwa ini "adalah pelengkap, bukan pengganti sepenuhnya." Wall Street Journal memfokuskan pada struktur pembagian tugas antara Broadcom dan MediaTek, melaporkan bahwa target harga rata-rata Wall Street untuk saham Broadcom telah dinaikkan menjadi 478 dolar (sekitar 74.000 yen), dan bahwa Brian Nowak dari Morgan Stanley pada 23 April menaikkan target harganya dari 235 dolar (sekitar 36.000 yen) menjadi 258 dolar (sekitar 40.000 yen).
Nada media spesialis teknologi sedikit berbeda. Tom's Hardware menyajikan tabel angka terperinci dengan kerangka "secara chip tunggal kalah dari Nvidia, tetapi unggul dalam total biaya kepemilikan saat diskalakan," dan Dylan Patel dari SemiAnalysis juga menulis dalam newsletter-nya bahwa "mikroarsitektur hanyalah sebagian kecil dari biaya sebenarnya infrastruktur AI; arsitektur sistem dan fleksibilitas deployment-lah yang merupakan esensinya." Ben Thompson dari Stratechery memuat wawancara eksklusif dengan Thomas Kurian, CEO Google Cloud, dan menilai bahwa "akumulasi sepuluh tahun di mana Google telah mengasah dirinya sendiri sebagai pelanggan pertama (customer zero) akhirnya berbuah menjadi produk yang dapat dijual ke luar." Sementara itu, Patrick Moorhead dari Moor Insights & Strategy membingkainya sebagai "TPU bukan 'melawan' Nvidia, melainkan bersaing pada tingkat sistem seperti Apple Silicon," dan menunjukkan pandangan hati-hati bahwa penilaian definitif harus dihindari hingga benchmark pihak ketiga yang telah di-peer-review (MLPerf, InferenceMax) keluar.
Di dalam negeri Jepang, Nikkei Shimbun, ASCII, HelenTech, GIGAZINE, AI Sogo Kenkyusho, dan lainnya hampir serentak mengangkat poin struktural "chip terpisah untuk pelatihan dan inferensi" serta angka-angka "2,8 kali / 80% dibandingkan Ironwood" dan "dua kali per watt"; ASCII bahkan langsung mengambil klaim Google "mempersingkat pengembangan model mutakhir dari beberapa bulan menjadi beberapa minggu" sebagai judul utama. GIGAZINE menekankan "kinerja per watt dua kali lipat" dan mengisyaratkan bahwa keterbatasan energi akan menjadi sumbu persaingan berikutnya. AI Kakumeisha dan lainnya memperkuat kerangka pembagian tugas Broadcom = Sunfish, MediaTek = Zebrafish, serta sudut pandang bahwa hal ini akan menimbulkan kesempitan baru terkait kapasitas produksi TSMC CoWoS.
Pelanggan dan Kurva Permintaan — "Server perusahaan kami tidak mencukupi untuk para peneliti internal"
Kurva permintaan TPU generasi ke-8 sangat berbeda jika dibandingkan dengan generasi-generasi sebelumnya. Anthropic sebagai pelanggan terbesar telah mengamankan hingga 1 juta chip dan kapasitas komputasi 5 GW melalui kontrak baru dengan Google, dan jika ditambah dengan kontrak tambahan bersama AWS, totalnya diperkirakan mencapai 10 GW. CFO Anthropic, Krishna Rao, secara terbuka menyatakan bahwa "kami menargetkan pendapatan tahunan sebesar 30 miliar dolar AS (sekitar 4,6 triliun yen) pada tahun 2027," dan TPU generasi ke-8 menjadi tumpuan untuk mewujudkan target tersebut. Pada Februari 2026, Meta menandatangani kontrak multi-tahun senilai miliaran dolar dengan Google, dan berdasarkan laporan media, perusahaan ini diperkirakan akan mengamankan 500.000 hingga 800.000 chip pada tahun 2027. Apple mengadopsi TPU untuk backend versi Gemini dari Siri, dan diperkirakan akan mengeluarkan biaya sekitar 1 miliar dolar AS (sekitar 155 miliar yen) per tahun. Citadel Securities mengadopsi TPU untuk perangkat lunak riset kuantitatifnya, dan 17 laboratorium nasional di bawah Departemen Energi AS sedang membangun platform AI ilmiah bernama "AI Co-Scientist" di atas TPU. Laporan terbaru bahkan menyebutkan bahwa OpenAI pun mulai mengamankan sebagian kapasitas TPU.
Sebagai bukti adanya kelebihan permintaan, TheNextWeb melaporkan bahwa "akibat Google memprioritaskan pasokan TPU—bahkan yang dialokasikan untuk peneliti internal—kepada Anthropic, tim Research internal Google sendiri kini harus mengantre dalam daftar tunggu TPU." Bank of America menilai bahwa dengan adanya ekspansi penjualan eksternal dan peluncuran Gemini 3 secara penuh, pendapatan semikonduktor AI Broadcom pada tahun fiskal 2026 dapat lebih dari dua kali lipat dibandingkan tahun sebelumnya, dan pada tahun 2027 berpotensi mencapai kisaran 100 miliar dolar AS (sekitar 15,5 triliun yen). Total investasi infrastruktur AI dari Big Tech pada tahun 2026 diperkirakan melampaui 800 miliar dolar AS (sekitar 124 triliun yen), dan perubahan struktural telah dimulai di mana sebagian porsi alokasi tersebut bergeser dari GPU Nvidia ke ASIC khusus seperti TPU, Trainium, dan Maia.
Komposisi dengan Nvidia — Bagaimana Jensen Huang Membantahnya
CEO Nvidia Jensen Huang, ketika ditanya pandangannya tentang TPU generasi ke-8 dalam podcast Dwarkesh Patel, membantah dengan mengatakan, "Anthropic adalah kasus khusus, bukan tren. Jika Anthropic dikecualikan, di mana sumber pertumbuhan TPU? Itu 100% bergantung pada Anthropic." Huang juga berulang kali memprovokasi Google dan Amazon dengan mengatakan, "Mereka harus menunjukkan hasil pada tolok ukur publik seperti MLPerf dan InferenceMax," dan menyatakan, "Tidak ada yang mampu menunjukkan platform yang mengungguli Nvidia dalam hal kinerja per total biaya kepemilikan." Di kalangan analis, terlepas dari pernyataan agresif Huang, estimasi dari IDC dan Bernstein yang menyebutkan bahwa pangsa pasar inferensi Nvidia dapat turun dari saat ini yang melebihi 90% menjadi 20–30% pada tahun 2028 semakin tersebar luas, dan ancaman ASIC khusus di pasar inferensi telah memasuki tahap yang tidak dapat diabaikan.
Namun, Google sendiri tidak mendeklarasikan "perang total terhadap Nvidia." Pada Cloud Next 2026, terungkap bahwa instans Nvidia Vera Rubin NVL72 juga akan dijual bersama pada fabric Virgo yang sama, dan CEO Thomas Kurian menekankan bahwa "memperluas pilihan bagi pelanggan adalah prioritas utama, dan Nvidia tetap menjadi mitra penting." Di antara VC Silicon Valley pun, pandangan yang dominan adalah "bukan pilihan biner antara Nvidia atau TPU, melainkan era multi-akselerator di mana silikon optimal dipilih untuk setiap beban kerja." Fakta bahwa Google tidak menjual TPU secara penuh ke pihak luar dan pada dasarnya menyediakan akses melalui Google Cloud juga ditafsirkan sebagai sinyal bahwa "tidak ada niat untuk menghancurkan ekonomi saluran distribusi Nvidia."
Titik observasi untuk 12–18 bulan ke depan
Titik observasi pertama adalah waktu pasti dari ketersediaan umum (GA) yang dijadwalkan pada paruh kedua tahun 2026. Google hanya menyatakan "paruh kedua 2026", dan jadwal tersebut dapat maju atau mundur tergantung pada peningkatan lini produksi CoWoS 2nm TSMC, yang memegang kunci kapasitas produksi massal. Morgan Stanley memprediksi bahwa "Zebrafish dari MediaTek akan memasuki produksi massal sesuai jadwal pada paruh kedua 2026", sementara HyperFRAME Research mencatat bahwa "penerapan penuh akan terjadi pada paruh kedua 2027 ketika TSMC 2nm mencapai produksi massal skala penuh". Perbedaan antara keduanya wajar dipandang sebagai perbedaan antara penyediaan beta dan penerapan skala GW yang sesungguhnya.
Titik observasi kedua adalah putaran MLPerf v5.0 dan InferenceMax yang akan diadakan pada Juni-Juli 2026. Sebagaimana yang berulang kali dituntut oleh Huang, fokusnya adalah apakah Google akan mempublikasikan hasil benchmark pihak ketiga TPU 8t / 8i untuk pertama kalinya, dan jika dipublikasikan, perdebatan saat ini bahwa "kalah dari Nvidia dalam performa absolut tetapi unggul dalam efisiensi biaya" akan dikuantifikasi. Secara paralel, pengukuran aktual biaya inferensi dan throughput pada TPU 8i yang menyertai peluncuran Anthropic Claude 5 / Gemini 3 Pro menjadi perhatian terbesar media dan investor.
Titik observasi ketiga adalah kemajuan menengah menuju operasional tahun 2027 untuk fase pertama JV Blackstone-Google (500MW), serta munculnya neocloud TPU kedua dan ketiga yang mengikutinya. Banyak VC Silicon Valley menggali "neocloud berbasis TPU" sebagai tema investasi baru, dan perhatian tertuju pada apakah akan muncul operator yang mampu mereplikasi pertumbuhan pesat yang dinikmati CoreWeave dan Lambda Labs di ekosistem Nvidia, kini di ekosistem TPU. Lebih jauh lagi, pada musim gugur 2026, beberapa pihak terkait berbisik tentang kemungkinan pelanggan mega ketiga dan keempat selain Anthropic dan Meta (seperti OpenAI, Microsoft, atau xAI) akan secara terbuka mengumumkan kontrak inferensi berbasis TPU 8i.
Terakhir, sebagai titik observasi jangka panjang, dapat disebutkan pengumuman "TPU 9" atau generasi penerus setara dalam kurun 2027. Broadcom diperkirakan akan mempertahankan kontrak jangka panjang dengan Google hingga 2031, melanjutkan desain dan pasokan, sementara MediaTek dilaporkan akan secara bertahap mengamankan kapasitas produksi setara 120.000-150.000 wafer CoWoS hingga 2027. Investasi infrastruktur AI Big Tech pada 2026 sebesar 800 miliar dolar (sekitar 124 triliun yen) sebagian akan ditopang oleh "daya beli generasi TPU 8", dan pada 2027 angka ini kemungkinan besar akan meluas ke ranah lebih dari 1 triliun dolar (lebih dari 155 triliun yen). Penilaian sebenarnya atas TPU generasi ke-8 akan turun pada periode dari akhir 2026 hingga paruh pertama 2027 ketika TPU bersaing langsung dengan generasi Nvidia Vera Rubin Ultra, dan inilah tonggak yang paling perlu diawasi oleh VC Silicon Valley ke depannya.