Asal-usul GPU——Dari Gaming hingga Penguasa AI

Perjalanan GPU NVIDIA hingga menjadi identik dengan semikonduktor AI dibentuk oleh visi seorang wirausahawan dan beberapa titik balik bersejarah.

Pada tahun 1993, Jensen Huang, Chris Malachowsky, dan Curtis Priem mendirikan NVIDIA di Santa Clara, California. Bisnis awal mereka adalah chip grafis untuk game PC. NVIDIA juga merupakan perusahaan yang meluncurkan GeForce 256 pada tahun 1999 dan menciptakan istilah "GPU (Graphics Processing Unit)." Pada awal tahun 2000-an, mereka bersaing ketat dengan ATI (kemudian AMD) untuk merebut pangsa pasar GPU gaming.

Titik balik pertama adalah pada tahun 2006 dengan diluncurkannya CUDA (Compute Unified Device Architecture). CUDA menyediakan model pemrograman yang memungkinkan ribuan core GPU — yang awalnya dikhususkan untuk rendering grafis — digunakan untuk komputasi paralel serba guna. Dengan kemampuan memanfaatkan paralelisme GPU menggunakan kode mirip bahasa C, para peneliti di bidang komputasi ilmiah dan simulasi fisika langsung menyambutnya. Pada saat itu, tidak ada yang membayangkan bahwa CUDA akan menjadi "parit pertahanan (moat)" industri AI.

Titik balik kedua adalah pada tahun 2012, yaitu "kejutan AlexNet." Alex Krizhevsky, Ilya Sutskever, dan Geoffrey Hinton meraih kemenangan telak di kompetisi ImageNet dengan jaringan saraf konvolusional bernama "AlexNet" yang dilatih menggunakan dua GPU GTX 580. Pencapaian ini secara dramatis menurunkan tingkat kesalahan pengenalan gambar dari 26% menjadi 16%, dan menjadi titik awal "revolusi deep learning." Jensen Huang kemudian menyebut momen ini sebagai "Big Bang," dan memutuskan untuk menjadikan AI sebagai bisnis inti NVIDIA di masa depan.

Sejak saat itu, NVIDIA mengembangkan GPU untuk pusat data secara pesat. Pada generasi Volta tahun 2017, Tesla V100 memperkenalkan Tensor Core yang dikhususkan untuk komputasi AI untuk pertama kalinya, mewujudkan percepatan signifikan melalui komputasi presisi campuran (FP16/FP32). Generasi Ampere A100 pada tahun 2020 mencapai 312 TFLOPS (TF32) dan, seiring dengan lonjakan permintaan AI di tengah pandemi COVID-19, mendorong pertumbuhan pesat pendapatan pusat data. Generasi Hopper H100 pada tahun 2022 dilengkapi Transformer Engine dengan dukungan komputasi FP8, dan menjadi "standar" dalam pelatihan model besar berbasis GPT. Pada tahun 2024, diumumkan generasi Blackwell B200/GB200 — chip dengan 208 miliar transistor yang mengintegrasikan dua die dalam satu paket, mencapai 20 PFLOPS dengan dukungan FP4. GB200 NVL72 (rak berpendingin cairan 72 GPU) mengklaim peningkatan kinerja inferensi 30 kali lipat dibanding generasi sebelumnya.

Pada tahun fiskal 2025 (periode Januari 2025), pendapatan NVIDIA mencapai 130,5 miliar dolar (sekitar 19,575 triliun yen), meningkat 114% dibanding tahun sebelumnya. Di antaranya, segmen pusat data menyumbang 115,2 miliar dolar (sekitar 17,28 triliun yen), mencakup 88% dari total pendapatan. Kapitalisasi pasar melampaui 3 triliun dolar (sekitar 450 triliun yen), menjadikan NVIDIA salah satu perusahaan paling bernilai di dunia.

Asal Usul TPU — Mengapa Google Membuat Chip Sendiri

Motivasi Google mengembangkan TPU bukanlah ambisi teknologi semata, melainkan sebuah keharusan ekonomi.

Pada awal 2010-an, penggunaan deep learning di internal Google berkembang pesat. Pengenalan suara, Google Terjemahan, peringkat pencarian, rekomendasi YouTube——jaringan saraf tiruan tertanam di setiap layanan. Perkiraan internal Google menyebutkan bahwa "jika semua pengguna menggunakan pencarian suara hanya 3 menit per hari, kapasitas pusat data saat itu perlu digandakan." Terus membeli GPU NVIDIA dalam jumlah besar tidak berkelanjutan, baik dari sisi biaya maupun pasokan.

Jawaban Google atas tantangan ini adalah Domain-Specific Architecture (DSA)——chip buatan sendiri yang dikhususkan untuk komputasi jaringan saraf tiruan. Jeff Dean (ketika itu Kepala Google Brain) dan David Patterson (Profesor Emeritus UC Berkeley, penemu RISC, Google Distinguished Engineer sejak 2016) menjadi tokoh sentral, dan TPU v1 mulai beroperasi secara internal pada tahun 2015.

TPU v1 adalah chip aritmetika bilangan bulat 8-bit khusus inferensi dengan performa 92 TOPS (INT8). Pada Maret 2016, ketika AlphaGo milik DeepMind mengalahkan Lee Sedol, TPU v1 digunakan untuk inferensi, dan namanya pun dikenal di seluruh dunia.

Filosofi desain TPU berbeda secara mendasar dari GPU. Jika GPU berorientasi pada komputasi paralel serbaguna, TPU mengadopsi struktur Systolic Array yang dikhususkan untuk perkalian matriks (GEMM). Dengan memaksimalkan penggunaan ulang data, efisiensi komputasi per watt pun meningkat. Selain itu, format BFloat16 (Brain Float 16) yang diperkenalkan Google lebih awal dari industri memungkinkan peningkatan throughput yang signifikan dengan sedikit mengorbankan presisi. BFloat16 kemudian diadopsi oleh GPU NVIDIA (V100 ke atas) dan CPU Intel, menjadi standar industri.

TPU terus berkembang dari generasi ke generasi. Pada v2 tahun 2017, dukungan pelatihan dan HBM ditambahkan, dan layanan publik melalui Google Cloud pun dimulai. Pada v3 tahun 2018, pendingin cair diperkenalkan. Pada v4 tahun 2021, dengan SparseCore dan konfigurasi Pod 4.096 chip menggunakan Optical Circuit Switch (OCS), pencapaian lebih dari 1 EXAFLOPS berhasil diraih. Pada tahun 2023, v5e (mengutamakan efisiensi biaya) dan v5p (mengutamakan performa, Pod 8.960 chip) diluncurkan. Kemudian pada tahun 2024, generasi keenam "Trillium" diumumkan, dengan performa pelatihan 4,7 kali lebih tinggi dan efisiensi energi 67% lebih baik dibandingkan v5e.

Keunggulan dan Kelemahan Teknis——Generalitas vs Efisiensi Spesifik

Jika kita merangkum karakteristik teknis GPU dan TPU, perbedaan filosofi desain keduanya menjadi sangat jelas.

Keunggulan GPU NVIDIA adalah, pertama, serbaguna. Tidak hanya untuk pelatihan dan inferensi AI, tetapi juga mampu menangani semua beban kerja komputasi paralel, mulai dari komputasi ilmiah, rendering, simulasi, hingga penambangan mata uang kripto. Kedua, skala ekosistem CUDA. Diperkirakan lebih dari 4 juta pengembang CUDA, kumpulan pustaka teroptimasi seperti cuDNN, TensorRT, NCCL, Triton, serta semua framework PyTorch, TensorFlow, dan JAX mendukung optimasi CUDA sebagai kelas pertama. Fondasi perangkat lunak yang dibangun selama lebih dari 15 tahun ini "tidak bisa diduplikasi dalam semalam" (Jensen Huang). Ketiga, komunikasi antara GPU dengan bandwidth tinggi melalui NVLink/NVSwitch (dua arah 900 GB/s pada H100), dan integrasi jaringan InfiniBand melalui akuisisi Mellanox (2019, 6,9 miliar dolar ≈ 1,035 triliun yen) mewujudkan optimasi end-to-end dari chip hingga kluster.

Di sisi lain, kelemahan GPU juga jelas. Konsumsi daya mencapai 700W pada H100 dan lebih dari 1.000W pada B200, sehingga biaya listrik dan pendinginan pusat data menjadi sangat besar. Harga H100 sekitar 25.000–40.000 dolar (sekitar 3,75–6 juta yen) per unit, dan sistem DGX H100 (8 GPU) lebih dari 200.000 dolar (sekitar 30 juta yen). Pada tahun 2023–2024, terjadi kekurangan pasokan yang serius, dengan lead time mencapai 6–12 bulan. Dan ketergantungan pada CUDA adalah "parit pertahanan" sekaligus "lock-in". Biaya migrasi ke perangkat keras lain sangat tinggi, dan ROCm dari AMD belum mampu menyamai kematangan CUDA.

Keunggulan TPU terletak di atas segalanya pada rasio kinerja terhadap biaya (dibahas lebih rinci di bab berikutnya). Desain yang dikhususkan untuk operasi matriks menghasilkan kinerja tinggi per watt. Trillium berhasil mencapai peningkatan efisiensi energi sebesar 67% dibandingkan v5e. Koneksi langsung antar chip melalui ICI (Inter-Chip Interconnect) mewujudkan latensi rendah dan bandwidth tinggi yang setara NVLink, dan konfigurasi Pod dengan ribuan chip telah terbukti berhasil. Afinitas dengan framework JAX yang dikembangkan Google sangat tinggi, dan pelatihan Gemini dilakukan dengan kombinasi JAX+TPU.

Kelemahan TPU adalah terbatas pada Google Cloud (tidak bisa dibeli on-premise), ekosistemnya lebih kecil dibandingkan CUDA (dukungan TPU pada PyTorch cenderung tertinggal dari versi CUDA), dan adanya kurva pembelajaran untuk optimasi khusus TPU (desain pipeline data, strategi sharding).

Dalam benchmark MLPerf (diselenggarakan oleh MLCommons, standar industri untuk kinerja AI), NVIDIA mencatat kinerja tertinggi di hampir semua kategori dengan Blackwell, sementara Google TPU v5p juga menghasilkan hasil terbaik di beberapa kategori. Namun, MLPerf adalah benchmark yang memperlombakan "kinerja tertinggi", dan tidak mengukur efisiensi biaya. Rasio kinerja terhadap biaya yang merupakan keunggulan terbesar TPU memiliki struktur yang tidak tercermin dalam MLPerf.

Rasio biaya-kinerja TPU——Keunggulan struktural yang patut dicatat

Dalam perdebatan GPU vs TPU, argumen yang paling sering diabaikan namun paling penting adalah rasio kinerja terhadap biaya.

Google secara konsisten menekankan keunggulan biaya pada setiap pengumuman generasi TPU. Saat peluncuran TPU v5e (Agustus 2023), mereka mengumumkan "biaya pelatihan turun setengah dibanding v4, biaya inferensi sekitar sepertiga"; saat peluncuran v5p (Desember 2023), "rasio kinerja terhadap biaya lebih unggul dibanding H100 untuk pelatihan model berskala besar"; dan saat peluncuran Trillium (2024), "peningkatan performa per dolar sebesar 4,7x dibanding v5e."

Perbandingan langsung harga cloud bervariasi tergantung konfigurasi dan wilayah, namun secara perkiraan kasar, gambaran berikut muncul: TPU v5e di Google Cloud sekitar $1,20/jam per chip (on-demand), turun hingga sekitar $0,50/jam dengan komitmen 3 tahun. Sementara itu, H100 di Google Cloud yang sama (instance A3) sekitar $3,90/jam per GPU. H100 di AWS (instance p5) sekitar $12,29/jam per GPU, dan di cloud GPU seperti CoreWeave atau Lambda sekitar $2,00–$2,50/jam.

Dalam perbandingan biaya pelatihan LLM, pelatihan model berskala LLaMA 2 70B dengan konfigurasi 2.048 unit H100 (diasumsikan AWS/Azure) diperkirakan sekitar $2–3 juta (sekitar 300–450 juta yen), sedangkan konfigurasi setara TPU v5p diklaim oleh Google dapat menghemat 30–50% biaya, yakni setara $1–2 juta (sekitar 150–300 juta yen). Untuk biaya per token pada inferensi, Google mengklaim TPU v5e mencapai peningkatan efisiensi biaya hingga 2,5x dibanding H100.

Ada tiga alasan struktural yang mendasari keunggulan biaya ini. Pertama, TPU dengan desain domain-spesifik memiliki efisiensi watt per operasi matriks yang melampaui GPU — efisiensi yang diperoleh dari mengorbankan fleksibilitas tercermin dalam biaya. Kedua, Google mengintegrasikan secara vertikal desain, manufaktur (disubkontrakkan ke TSMC), dan operasional TPU, sehingga tidak ada margin yang timbul ketika membeli GPU NVIDIA sebagai pihak ketiga. Biaya penggunaan TPU secara internal di Google kemungkinan besar lebih rendah dari harga yang dikenakan ke pelanggan eksternal. Ketiga, pusat data Google mencapai efisiensi energi kelas dunia dengan PUE (Power Usage Effectiveness) sekitar 1,1, sehingga biaya daya dan pendinginan dapat ditekan rendah.

Namun, ada catatan penting dalam perbandingan biaya ini. Perlu dipertimbangkan kesulitan perbandingan langsung (perbedaan struktur harga cloud), pengaruh tingkat optimisasi (perbandingan tidak akan adil tanpa kode yang dioptimalkan masing-masing untuk TPU/GPU), serta biaya tersembunyi (biaya transfer data, waktu engineering, biaya belajar migrasi ke TPU). Selain itu, karena TPU terbatas hanya pada Google Cloud, TPU bukan pilihan bagi perusahaan yang menginginkan strategi multi-cloud atau operasional on-premise.

Mengingat lonjakan biaya pelatihan AI — GPT-3 (estimasi $4,6 juta, 2020) → GPT-4 (estimasi lebih dari $100 juta, 2023) → model generasi berikutnya (estimasi $500 juta–$1 miliar) — perbedaan rasio kinerja terhadap biaya berdampak dalam satuan puluhan juta dolar. Ini menjadi motivasi ekonomi yang kuat untuk memilih TPU, terutama bagi startup yang mengutamakan efisiensi modal.

Pilihan Infrastruktur Perusahaan——Mengapa Berbeda-beda

Pilihan infrastruktur untuk pengembangan AI sangat bervariasi tergantung pada strategi, kemitraan, dan latar belakang teknologi masing-masing perusahaan.

OpenAI menjalin kemitraan strategis dengan Microsoft Azure, dan pelatihan GPT-4/o dilakukan menggunakan GPU NVIDIA di Azure (diperkirakan puluhan ribu hingga 100.000 unit H100). CEO Sam Altman menyatakan bahwa "dalam jangka panjang, diperlukan beragam chip yang dioptimalkan untuk AI," namun pada awal 2024 dilaporkan ia merencanakan penggalangan dana senilai 5–7 triliun dolar untuk memproduksi chip AI sendiri (Bloomberg). Meskipun rencana tersebut tidak terwujud, hal ini mencerminkan kekhawatiran mendalam terhadap pasokan GPU.

Meta secara tegas mengadopsi strategi eksklusif GPU NVIDIA. Mark Zuckerberg mengumumkan bahwa Meta akan mengamankan sekitar 350.000 unit H100 pada akhir 2024, dan LLaMA 3.1 405B dilatih menggunakan lebih dari 16.000 unit H100. Meta tengah mengembangkan chip khusus inferensi MTIA (dengan peningkatan performa inferensi 3x pada v2), namun pelatihan tetap berpusat pada GPU NVIDIA. Bagi Meta yang mengusung prinsip open-source, kompatibilitas ekosistem CUDA dengan PyTorch menjadi alasan utama pemilihan GPU.

xAI (Elon Musk) melangkah lebih jauh. Perusahaan ini membangun kluster GPU tunggal terbesar di dunia, "Colossus," di Memphis, Tennessee, dengan 100.000 unit H100 yang beroperasi. Musk secara terbuka menyatakan bahwa "GPU adalah emas baru" dan "perusahaan yang tidak mampu mengamankan GPU dalam jumlah cukup tidak bisa ikut serta dalam persaingan AI." Meskipun chip AI proprietary Dojo (D1) dikembangkan melalui Tesla, pada akhirnya investasi ke GPU NVIDIA ditingkatkan secara signifikan dan rencana Dojo secara de facto dipangkas pada 2024. Ini menjadi contoh simbolis betapa sulitnya pengembangan chip sendiri.

Di sisi lain, startup yang memilih TPU juga terus bertambah. Anthropic menjalani strategi hibrida: melatih Claude menggunakan Google Cloud TPU dengan dukungan investasi lebih dari 2 miliar dolar dari Google (2023), sekaligus memanfaatkan GPU/Trainium di AWS berkat investasi 4 miliar dolar dari Amazon. Character.AI (didirikan oleh Noam Shazeer dan Daniel De Freitasdari Google Brain) mengoperasikan pemrosesan percakapan jutaan pengguna harian menggunakan TPU v4/v5e, dengan efisiensi biaya inferensi skala besar sebagai faktor utama pemilihannya. Cohere menggunakan kombinasi TPU dan GPU untuk mendukung strategi multi-cloud. MidJourney pada tahap awal melatih model generasi gambarnya menggunakan Google Cloud TPU.

Google/DeepMind sendiri tentu saja berpusat pada TPU. Pelatihan Gemini dilakukan di TPU v5p, PaLM 2 di TPU v4 Pod, dan AlphaFold pun dijalankan di atas TPU. Namun demikian, Google Cloud juga menyediakan NVIDIA H100/A100 bagi pelanggan, menunjukkan sikap "memberikan pilihan." Sebagian besar beban kerja inferensi AI internal Google — termasuk Penelusuran, YouTube, Gmail, Google Terjemahan, dan Gemini — dilaporkan beroperasi di atas TPU.

Perspektif VC Silicon Valley——Keberlanjutan Dominasi NVIDIA dan Skenario Alternatifnya

VC di Silicon Valley memandang perdebatan GPU vs TPU bukan sebagai "perbandingan performa chip," melainkan sebagai "risiko struktural industri AI."

Sequoia Capital dalam laporan yang diterbitkan pada paruh pertama 2024, "AI's $600B Question," menunjukkan realita bahwa pendapatan aktual perusahaan AI jauh di bawah penjualan GPU NVIDIA yang melampaui 50 miliar dolar. Laporan ini mengisyaratkan kemungkinan investasi GPU/komputasi yang berlebihan, sekaligus menyoroti pentingnya optimasi biaya melalui alternatif (TPU, chip khusus).

a16z (Andreessen Horowitz) melalui Martin Casado dan Matt Bornstein, dalam analisis struktur biaya perusahaan AI bertajuk "Who Owns the Generative AI Platform?" (2023), menyatakan bahwa "margin kotor startup AI lebih rendah dibandingkan perusahaan SaaS tradisional akibat biaya GPU." a16z memandang lapisan infrastruktur AI (GPU/TPU) sebagai "pajak" yang dikuasai NVIDIA/Google, dan berpendapat bahwa peluang investasi terbesar VC ada di lapisan aplikasi—sembari tetap mencermati "risiko ketergantungan pada NVIDIA" dan kebangkitan silicon khusus. Matt Bornstein memprediksi "2026 adalah tahun agen AI," namun juga menegaskan bahwa optimasi biaya fondasi tersebut akan menentukan hidup-matinya startup.

Perilaku investasi VC mencerminkan kesadaran ini. Sebagai "alternatif" atas dominasi NVIDIA, investasi besar mengalir ke startup chip AI berikut: Cerebras Systems (total pendanaan sekitar 700 juta dolar ≈ 105 miliar yen, chip skala wafer WSE-3), Groq (total pendanaan sekitar 640 juta dolar ≈ 96 miliar yen, LPU khusus inferensi), SambaNova Systems (total pendanaan sekitar 1,1 miliar dolar ≈ 165 miliar yen, RDU), Tenstorrent (total pendanaan sekitar 300 juta dolar ≈ 45 miliar yen, berbasis RISC-V di bawah pimpinan Jim Keller), dan Etched (total pendanaan sekitar 120 juta dolar ≈ 18 miliar yen, ASIC khusus Transformer "Sohu").

Konsensus di kalangan VC dirangkum dalam tiga horizon waktu. Jangka pendek (1–3 tahun): dominasi NVIDIA tidak tergoyahkan—parit CUDA sangat kokoh dan siklus pembaruan generasi Blackwell/Rubin sangat cepat. Jangka menengah (3–5 tahun): pangsa silicon khusus (termasuk TPU) akan meluas, terutama terlihat pada pasar inferensi. Jangka panjang (lebih dari 5 tahun): lingkungan heterogen (campuran GPU + TPU + ASIC khusus) dipandang akan menjadi standar.

Goldman Sachs dalam laporan "AI Infrastructure: The Next $1 Trillion Opportunity" (2024) menempatkan NVIDIA sebagai pemenang jangka pendek, sekaligus memposisikan Google TPU dan AWS Trainium sebagai "alternatif paling potensial." Morgan Stanley menganalisis bahwa "parit NVIDIA bukan pada perangkat kerasnya, melainkan pada ekosistem CUDA," sementara Stacy Rasgon dari Bernstein Research—analis NVIDIA yang paling terkemuka—menyatakan bahwa "daya saing NVIDIA akan bertahan beberapa tahun ke depan," namun mengingatkan bahwa dalam jangka panjang, kebangkitan ASIC/chip khusus berpotensi menekan margin kotor.

Klaim Para Tokoh Terkenal——Kubu GPU vs Kubu TPU

Perdebatan GPU vs TPU membagi pendapat di antara tokoh-tokoh terkemuka Silicon Valley.

Jensen Huang (CEO NVIDIA) secara konsisten berpendapat bahwa fleksibilitas GPU memberikan keunggulan jangka panjang. "Chip yang dikhususkan untuk workload tertentu mungkin lebih efisien untuk sementara waktu, namun model AI berkembang dengan pesat. Platform GPU serbaguna lebih menguntungkan dalam jangka panjang." Mengenai CUDA, ia menyatakan "basis instalasi jutaan pengguna adalah ekosistem yang dibangun selama lebih dari 15 tahun, dan tidak dapat direplikasi dalam semalam," sementara di GTC 2024 ia mendeklarasikan bahwa "Revolusi Industri berikutnya telah dimulai." Peta jalan NVIDIA mendeklarasikan pembaruan generasi dalam siklus satu tahun (Blackwell→Rubin→Vera), mempercepat dari siklus dua tahun sebelumnya.

David Patterson (Profesor Emeritus UC Berkeley, Google Distinguished Engineer) adalah pendukung paling kuat di pihak TPU. Sebagai penemu RISC dan RAID yang telah mengukir namanya dalam sejarah desain semikonduktor, ia membuktikan keunggulan TPU dalam makalah tahun 2020 berjudul "A Domain-Specific Supercomputer for Training Deep Neural Networks," dan pada tahun 2023 mempublikasikan detail arsitektur TPU v4 dalam makalah ISCA yang ditulis bersama Jeff Dean. Ia berpendapat bahwa "arsitektur domain-spesifik jauh lebih efisien dibandingkan prosesor serbaguna."

Jeff Dean (Chief Scientist Google) adalah tokoh yang secara menyeluruh mendorong pengembangan TPU. Ia mengatakan, "Filosofi desain TPU adalah memanfaatkan sifat esensial komputasi jaringan saraf. Memaksimalkan throughput meskipun harus mengorbankan presisi sampai batas tertentu." Sebagai penganut hukum scaling, ia memposisikan TPU sebagai "alat untuk mewujudkan scaling tersebut secara ekonomis, karena peningkatan jumlah komputasi adalah kunci peningkatan performa AI."

Yann LeCun (Chief AI Scientist Meta, Profesor NYU) mendukung GPU namun memiliki sudut pandang yang unik. Seluruh penelitian AI berskala besar di Meta (termasuk seri LLaMA) dilakukan di atas GPU NVIDIA. Meski menyatakan bahwa "kecepatan evolusi GPU serbaguna terlalu tinggi sehingga sulit bagi ASIC untuk menyusulnya," ia juga mengakui pentingnya chip domain-spesifik dalam jangka panjang. Sebagai penganut open source, ia mengkhawatirkan ketergantungan berlebihan pada vendor tertentu.

Jim Keller (CEO Tenstorrent, perancang AMD Zen/Apple A-series/Tesla Dojo) menantang NVIDIA secara langsung. "Parit pertahanan NVIDIA tidak sedalam yang dibayangkan. Jika ada alternatif yang baik, migrasi akan terjadi." Ia mempromosikan arsitektur terbuka berbasis RISC-V dan secara tegas menyatakan bahwa "model GPU+CUDA bukanlah yang optimal."

Elon Musk telah menarik kesimpulan di sisi praktis. Meski mengembangkan chip AI khusus bernama Dojo untuk Tesla, ia akhirnya membeli 100.000 unit NVIDIA H100 untuk xAI. Ungkapannya "GPU adalah emas baru" adalah ekspresi paling ringkas dari realitas dominasi NVIDIA.

Andrew Ng (Profesor Stanford, Co-founder Coursera) mengambil posisi tengah yang pragmatis. Sebagai pelopor penelitian deep learning berbasis GPU di masa awal, ia menyatakan, "Yang lebih penting adalah apa yang Anda bangun, bukan chip apa yang Anda gunakan. Namun pada titik ini, ekosistem GPU+CUDA memiliki produktivitas tertinggi."

GPU vs TPU dalam Angka——Data Pasar dan Tren Investasi

Angka-angka pasar semikonduktor AI mencerminkan dua hal sekaligus: dominasi mutlak NVIDIA dan kebangkitan kekuatan-kekuatan yang menantangnya.

Pendapatan pusat data NVIDIA melonjak dari 15 miliar dolar (sekitar 2,25 triliun yen) pada tahun fiskal 2023 (periode Januari 2023), menjadi 47,5 miliar dolar (sekitar 7,125 triliun yen) pada tahun fiskal 2024, dan 115,2 miliar dolar (sekitar 17,28 triliun yen) pada tahun fiskal 2025 — meningkat sekitar 8 kali lipat hanya dalam dua tahun. NVIDIA menguasai perkiraan 70–95% pangsa pasar akselerator pelatihan AI. a16z menyebut skala pendapatan ini sebagai "pajak industri AI."

AMD mengejar dengan MI300X, menetapkan target pendapatan akselerator AI 2024 di kisaran 5 miliar dolar (sekitar 750 miliar yen). Namun skalanya masih kurang dari sepersepuluh NVIDIA, dengan pangsa pasar yang hanya sekitar 5–15%.

Angka pendapatan langsung Google Cloud TPU tidak dipublikasikan. Alphabet melaporkan total pendapatan Google Cloud sebesar sekitar 43 miliar dolar (sekitar 6,45 triliun yen, +28% YoY) untuk keseluruhan tahun 2024, sekaligus mencapai profitabilitas operasional. Jumlah perusahaan pengguna TPU disebut mencapai ratusan lebih, namun penggunaan internal Google jauh mendominasi. Sebagian besar beban kerja inferensi untuk Search, YouTube, Gmail, Google Translate, dan Gemini berjalan di atas TPU.

Beberapa perusahaan riset memproyeksikan total pasar semikonduktor AI mencapai sekitar 70–80 miliar dolar (sekitar 10,5–12 triliun yen) pada 2024, dan 300–400 miliar dolar (sekitar 45–60 triliun yen) pada 2030. Pertumbuhan tahunannya diperkirakan 20–30%.

Belanja modal penyedia layanan cloud juga membengkak pesat. Sundar Pichai (CEO Google/Alphabet) mengumumkan rencana belanja modal senilai 75 miliar dolar per tahun (sekitar 11,25 triliun yen). Microsoft dan Amazon pun merencanakan investasi dalam skala serupa. NVIDIA adalah penerima manfaat terbesar dari "perlombaan senjata infrastruktur AI" ini, namun investasi masing-masing perusahaan dalam pengembangan chip kustom mereka sendiri juga semakin dipercepat.

Lonjakan biaya pelatihan AI semakin menegaskan pentingnya efisiensi biaya. Dari estimasi biaya pelatihan GPT-3 sebesar 4,6 juta dolar (2020), GPT-4 diperkirakan melebihi 100 juta dolar (2023), dan model generasi berikutnya diperkirakan mencapai 500 juta hingga 1 miliar dolar. Pada skala ini, penghematan 30–50% yang ditawarkan oleh keunggulan biaya TPU setara dengan selisih 150 juta hingga 500 juta dolar.

Tren Silicon Kustom——Jalan Ketiga Selain GPU dan TPU

Selain dikotomi GPU vs TPU, tren ketiga yang disebut "silicon kustom" semakin mendapatkan momentum.

Amazon/AWS meluncurkan Trainium 2 (2024) untuk mengurangi ketergantungan pada NVIDIA. Mereka sedang membangun kluster Trainium berskala besar bernama "Project Rainier" untuk melatih model generasi berikutnya dari Anthropic. Inferentia 2 yang dikhususkan untuk inferensi juga telah digunakan secara luas.

Microsoft mengumumkan chip khusus AI pertamanya, Maia 100, pada November 2023. Dikombinasikan dengan CPU berbasis Arm, Cobalt, chip ini dikembangkan untuk Azure, namun skalanya masih terbatas dan kemitraan dengan NVIDIA tetap menjadi pilar utama untuk saat ini.

Meta berhasil meningkatkan performa inferensi tiga kali lipat dengan MTIA v2. Namun, pelatihan masih berpusat pada GPU NVIDIA, sementara MTIA dikhususkan untuk optimasi biaya inferensi.

Apple menjalankan inferensi AI on-device dengan chip proprietary Apple Silicon (seri M), namun menggunakan GPU NVIDIA untuk pelatihan di pusat data.

Di samping langkah-langkah tersebut, tantangan dari startup pun terus berlanjut. Cerebras (chip skala wafer), Groq (LPU khusus inferensi, latensi sangat rendah), Tenstorrent (berbasis RISC-V, dipimpin Jim Keller), Etched (ASIC khusus Transformer), dan lainnya masing-masing menantang dominasi NVIDIA dengan pendekatan yang berbeda-beda.

AI Index Report 2024 dari Stanford HAI (Human-Centered AI Institute) memperingatkan bahwa biaya komputasi menjadi hambatan dalam penelitian AI, dan kesenjangan akses terhadap GPU/TPU menghambat "demokratisasi penelitian AI".

Tren Masa Depan——Menuju Masa Depan yang Heterogen

Persaingan GPU vs TPU pada akhirnya bukanlah soal "siapa yang menang", melainkan konvergensi menuju lingkungan heterogen (campuran berbagai chip) yang merupakan skenario paling mungkin terjadi.

Peta jalan NVIDIA semakin dipercepat. Blackwell (2024–2025) → Rubin (2026, HBM4, NVLink generasi baru) → Vera (2028), dengan deklarasi pergeseran dari siklus 2 tahun ke siklus 1 tahun. Bukan hanya peningkatan performa chip semata, namun platformisasi terintegrasi yang mencakup NVLink, NVSwitch, Spectrum-X Ethernet, dan perangkat lunak (NIM, NEMO) pun terus berkembang.

Google pun terus memperbarui generasinya. Generasi berikutnya setelah Trillium (v6) diperkirakan akan diluncurkan dalam siklus 18–24 bulan. Integrasi dengan CPU khusus "Axion" (berbasis Arm, diumumkan 2024) juga semakin maju, dengan visi "AI Hypercomputer" yang menggabungkan TPU + GPU + CPU. Optimalisasi inferensi menjadi tema yang sangat penting bagi deployment Gemini dalam skala besar.

Di sisi perangkat lunak, gerakan untuk meningkatkan portabilitas antar chip semakin pesat. Standardisasi compiler ML seperti MLIR dan OpenXLA terus berkembang, sementara Triton (dikembangkan oleh OpenAI/Meta) pun menjajaki perluasan ke backend selain GPU. Ketika teknologi-teknologi ini matang, hambatan lock-in CUDA akan semakin berkurang secara bertahap.

Merangkum prediksi para analis, pada 2025–2027 NVIDIA akan mempertahankan pangsa pasar 60–80% di pasar pelatihan, namun turun ke 50–60% di pasar inferensi. Pada 2028–2030, chip khusus (TPU, Trainium, ASIC berbagai vendor) berpotensi mencapai 30–40% di pasar pelatihan. Pasar inferensi yang sangat sensitif terhadap biaya merupakan wilayah di mana penetrasi TPU/chip khusus akan berlangsung paling cepat.

Jika visi Jensen Huang bahwa "setiap perusahaan akan menjadi AI factory" terwujud, maka peralatan factory tersebut bukan hanya GPU NVIDIA, melainkan konfigurasi beragam yang mencampur Google TPU, AWS Trainium, dan ASIC khusus dari berbagai vendor. Pertanyaannya bukan soal menang-kalah antara "GPU vs TPU", melainkan era di mana setiap perusahaan memilih chip yang paling optimal sesuai dengan beban kerja, skala, dan struktur biaya mereka telah tiba.

Dampak pada Industri

Pertama, dominasi GPU NVIDIA tidak akan goyah dalam jangka pendek, namun struktur biaya yang disebut "pajak NVIDIA" berpotensi membatasi pertumbuhan industri AI secara keseluruhan. Angka pendapatan pusat data sebesar $115,2 miliar (FY2025) menunjukkan besarnya biaya yang dibayarkan industri AI kepada "pabrik komputasi". "Kesenjangan antara investasi GPU dan pendapatan" yang ditunjukkan oleh Sequoia Capital telah menciptakan tekanan pergeseran struktural menuju alternatif optimasi biaya——TPU, Trainium, dan ASIC kustom.

Kedua, rasio kinerja-biaya TPU merupakan keunggulan yang tidak bisa diabaikan, terutama bagi startup AI yang mengutamakan efisiensi modal. Pengurangan biaya pelatihan sebesar 30–50% akan menghasilkan selisih ratusan juta dolar pada skala model generasi berikutnya (perkiraan biaya pelatihan $500 juta–$1 miliar). Fakta bahwa perusahaan-perusahaan seperti Anthropic, Character.AI, dan Cohere memilih TPU menunjukkan bahwa keunggulan biaya telah memasuki fase "praktik", bukan sekadar "teori".

Ketiga, ekosistem CUDA adalah kekuatan terbesar NVIDIA sekaligus hambatan bagi seluruh industri AI. Basis lebih dari 4 juta pengembang membuat biaya migrasi sangat tinggi, namun dengan berkembangnya teknologi kompiler lintas chip seperti MLIR/OpenXLA/Triton, hambatan ini diperkirakan akan menurun dalam jangka menengah. Apakah pernyataan Jim Keller bahwa "parit NVIDIA tidak sedalam yang dibayangkan" akan menjadi kenyataan bergantung pada kematangan teknologi perangkat lunak tersebut.

Keempat, pasar semikonduktor AI sedang beralih dari dikotomi GPU vs TPU menuju lingkungan heterogen (campuran berbagai chip). Dengan tambahan tantangan dari Amazon Trainium, Microsoft Maia, Meta MTIA, serta startup seperti Cerebras, Groq, Tenstorrent, dan Etched, perusahaan dituntut untuk memilih chip sesuai beban kerja, skala, dan struktur biaya mereka. Di pasar pelatihan, dominasi GPU NVIDIA akan bertahan untuk sementara waktu, namun di pasar inferensi, penetrasi TPU/chip kustom berkembang paling pesat.


Referensi: NVIDIA FY2025 Annual Report & Earnings (Jan 2025), NVIDIA GTC 2024 Keynote (Jensen Huang), Google Cloud Next 2024 (Pengumuman Trillium/TPU v6), Google ISCA 2023 TPU v4 Paper (Jeff Dean, David Patterson et al.), Sequoia Capital "AI's $600B Question" (2024), a16z "Who Owns the Generative AI Platform?" (Martin Casado, Matt Bornstein, 2023), Goldman Sachs "AI Infrastructure: The Next $1 Trillion Opportunity" (2024), Morgan Stanley NVIDIA Coverage Reports, Bernstein Research (Stacy Rasgon) Semiconductor Analysis, Stanford HAI AI Index Report 2024, MLCommons MLPerf Training v4.0 Results (2024), Google Cloud TPU Pricing & Documentation, AWS P5/Trainium Pricing, Azure ND H100 Pricing, David Patterson "A Domain-Specific Supercomputer for Training Deep Neural Networks" (Communications of the ACM, 2020), Pengumuman Kemitraan Anthropic-Google Cloud (2023), Character.AI TPU Infrastructure Reports, Pengumuman Elon Musk xAI Colossus, Laporan Penggalangan Dana Chip AI Sam Altman (Bloomberg, 2024), Wawancara Jim Keller Tenstorrent & Visi RISC-V, Komentar Perangkat Keras AI Yann LeCun, Penelitian DL Berbasis GPU Andrew Ng, Putaran Pendanaan Cerebras/Groq/SambaNova/Etched (TechCrunch, The Information), Pengumuman Google Axion CPU (2024), Peta Jalan NVIDIA Rubin/Vera (GTC 2024), Liputan "Pajak NVIDIA" oleh The Information, Analisis Arsitektur TPU IEEE Spectrum, Liputan Khusus NVIDIA/Semikonduktor AI Nikkei Cross Tech