Asal Usul GPU——Dari Permainan ke Penguasa AI
Perjalanan GPU NVIDIA menjadi ikon dalam industri semikonduktor AI telah dibentuk oleh visi seorang usahawan dan beberapa titik peralihan bersejarah.
Pada tahun 1993, Jensen Huang, Chris Malachowsky, dan Curtis Priem mengasaskan NVIDIA di Santa Clara, California. Perniagaan awal mereka tertumpu pada cip grafik untuk permainan PC. NVIDIA juga merupakan syarikat yang melancarkan GeForce 256 pada tahun 1999 dan memperkenalkan istilah "GPU (Graphics Processing Unit)". Pada awal tahun 2000-an, syarikat ini terlibat dalam persaingan sengit berebut bahagian pasaran GPU permainan dengan ATI (kemudiannya AMD).
Titik peralihan pertama ialah pada tahun 2006, iaitu pelancaran CUDA (Compute Unified Device Architecture). CUDA menyediakan model pengaturcaraan yang membolehkan ribuan teras GPU — yang pada asalnya direka khas untuk pemaparan grafik — digunakan untuk pengiraan selari serba guna. Ia membolehkan pemanfaatan keselarian GPU menggunakan kod seperti bahasa C, dan para penyelidik dalam bidang pengiraan saintifik serta simulasi fizikal menyambutnya dengan antusias. Pada ketika itu, tiada siapa yang menjangka bahawa CUDA akan menjadi "parit pertahanan (moat)" industri AI.
Titik peralihan kedua ialah pada tahun 2012, dikenali sebagai "Kejutan AlexNet". Alex Krizhevsky, Ilya Sutskever, dan Geoffrey Hinton memenangi pertandingan ImageNet dengan kemenangan besar menggunakan rangkaian neural konvolusi "AlexNet" yang dilatih menggunakan dua GPU GTX 580. Pencapaian ini secara dramatik mengurangkan kadar ralat pengecaman imej daripada 26% kepada 16%, dan menjadi titik permulaan "Revolusi Deep Learning". Jensen Huang kemudiannya menggambarkan detik ini sebagai "Big Bang" dan membuat keputusan untuk menjadikan AI sebagai perniagaan teras NVIDIA pada masa hadapan.
Sejak itu, NVIDIA mempercepatkan pembangunan GPU untuk pusat data. Generasi Volta Tesla V100 pada tahun 2017 memperkenalkan Tensor Core yang direka khas untuk pengiraan AI buat kali pertama, mencapai peningkatan kelajuan yang ketara dengan pengiraan ketepatan campuran (FP16/FP32). Generasi Ampere A100 pada tahun 2020 mencapai 312 TFLOPS (TF32), dan bersama-sama dengan lonjakan permintaan AI semasa pandemik COVID-19, ia mendorong pertumbuhan pesat hasil jualan pusat data. Generasi Hopper H100 pada tahun 2022 dilengkapi dengan Transformer Engine yang menyokong pengiraan FP8, menjadikannya "standard" untuk latihan model berskala besar seperti GPT. Pada tahun 2024, generasi Blackwell B200/GB200 diumumkan — cip dengan 208 bilion transistor yang mengintegrasikan dua die dalam satu pakej, mencapai 20 PFLOPS dengan sokongan FP4. GB200 NVL72 (rak penyejukan cecair 72 GPU) mendakwa peningkatan prestasi inferens 30 kali ganda berbanding generasi sebelumnya.
Hasil jualan NVIDIA untuk tahun kewangan 2025 (tempoh berakhir Januari 2025) ialah 130.5 bilion dolar (kira-kira 19.575 trilion yen), meningkat 114% berbanding tahun sebelumnya. Daripada jumlah tersebut, segmen pusat data menyumbang 115.2 bilion dolar (kira-kira 17.28 trilion yen), mewakili 88% daripada jumlah keseluruhan hasil jualan. Permodalan pasarannya melebihi 3 trilion dolar (kira-kira 450 trilion yen), menjadikannya salah satu syarikat paling bernilai di dunia.
Asal Usul TPU — Sebab Google Membuat Cip Sendiri
Motivasi Google membangunkan TPU bukanlah semata-mata daripada cita-cita teknikal, malah merupakan suatu keperluan ekonomi.
Pada awal 2010-an, penggunaan pembelajaran mendalam di dalam Google berkembang pesat. Pengecaman suara, Google Terjemah, penarafan carian, cadangan YouTube — rangkaian neural telah disematkan ke dalam setiap perkhidmatan. Mengikut anggaran Google, "jika semua pengguna menggunakan carian suara hanya 3 minit sehari, kapasiti pusat data ketika itu perlu digandakan." Terus membeli GPU NVIDIA dalam jumlah besar bukanlah sesuatu yang mampan dari segi kos mahupun bekalan.
Jawapan Google kepada cabaran ini ialah Seni Bina Khusus Domain (DSA) — cip reka bentuk sendiri yang dikhususkan untuk pengiraan rangkaian neural. Jeff Dean (ketua Google Brain pada masa itu) dan David Patterson (Profesor Emeritus UC Berkeley, pencipta RISC, Distinguished Engineer Google sejak 2016) memimpin usaha ini, dan TPU v1 mula beroperasi secara dalaman pada tahun 2015.
TPU v1 adalah cip aritmetik integer 8-bit khusus inferens dengan prestasi 92 TOPS (INT8). Pada Mac 2016, ketika AlphaGo milik DeepMind mengalahkan Lee Sedol, TPU v1 digunakan untuk inferens, dan namanya menjadi terkenal di seluruh dunia.
Falsafah reka bentuk TPU berbeza secara asasnya daripada GPU. Berbeza dengan GPU yang mengejar pengiraan selari bertujuan umum, TPU menggunakan struktur Systolic Array yang dikhususkan untuk pendaraban matriks (GEMM). Dengan memaksimumkan penggunaan semula data, kecekapan pengiraan per watt ditingkatkan. Selain itu, format BFloat16 (Brain Float 16) yang diperkenalkan oleh Google mendahului industri membolehkan peningkatan daya pemprosesan yang ketara dengan sedikit pengorbanan ketepatan. BFloat16 kemudiannya turut diterima pakai oleh GPU NVIDIA (V100 dan ke atas) serta CPU Intel, menjadikannya piawaian industri.
TPU terus berkembang dari satu generasi ke generasi berikutnya. Versi v2 pada 2017 merealisasikan sokongan latihan dan pemasangan HBM, serta memulakan penawaran awam melalui Google Cloud. Versi v3 pada 2018 memperkenalkan penyejukan cecair. Versi v4 pada 2021 mencapai lebih daripada 1 EXAFLOPS dengan konfigurasi Pod 4,096 cip menggunakan SparseCore dan suis litar optik (OCS). Pada 2023, v5e (mengutamakan kecekapan kos) dan v5p (mengutamakan prestasi, Pod 8,960 cip) dilancarkan. Kemudian pada 2024, generasi keenam "Trillium" diumumkan, merealisasikan peningkatan prestasi latihan 4.7 kali ganda dan peningkatan kecekapan tenaga sebanyak 67% berbanding v5e.
Kekuatan dan Kelemahan Teknikal — Serba Guna vs Kecekapan Khusus
Apabila kita menyusun ciri-ciri teknikal GPU dan TPU, perbezaan falsafah reka bentuk antara kedua-duanya menjadi jelas.
Kekuatan GPU NVIDIA terletak, pertama, pada serbaguna penggunaannya. Ia mampu mengendalikan sebarang beban kerja pengiraan selari, bukan sahaja latihan dan inferens AI, malah pengiraan saintifik, penjanaan imej, simulasi, dan perlombongan mata wang kripto. Kedua, skala ekosistem CUDA. Dianggarkan lebih 400,000 pembangun CUDA, koleksi pustaka pengoptimuman seperti cuDNN, TensorRT, NCCL, dan Triton, serta semua rangka kerja PyTorch, TensorFlow, dan JAX menyokong pengoptimuman CUDA sebagai keutamaan pertama. Asas perisian yang dibina selama lebih 15 tahun ini "tidak boleh disalin dalam sekelip mata" (Jensen Huang). Ketiga, komunikasi antara GPU berkelebaran tinggi melalui NVLink/NVSwitch (900 GB/s dua arah pada H100), serta integrasi rangkaian InfiniBand melalui pengambilalihan Mellanox (2019, USD 6.9 bilion ≈ RM 32.4 bilion), merealisasikan pengoptimuman end-to-end dari cip hingga kluster.
Sebaliknya, kelemahan GPU juga jelas. Penggunaan kuasa mencapai 700W untuk H100 dan lebih 1,000W untuk B200, menjadikan kos kuasa dan penyejukan pusat data sangat tinggi. Harga H100 ialah kira-kira USD 25,000–40,000 (≈ RM 117,500–188,000) seunit, manakala sistem DGX H100 (8 GPU) melebihi USD 200,000 (≈ RM 940,000). Antara 2023–2024, berlaku kekurangan bekalan yang serius dengan tempoh menunggu mencapai 6–12 bulan. Dan kebergantungan kepada CUDA adalah "parit pertahanan" sekaligus "penguncian vendor". Kos beralih kepada perkakasan lain amat tinggi, dan ROCm AMD masih belum setanding dengan kematangan CUDA.
Kekuatan TPU terletak terutamanya pada nisbah kos-prestasi (diperincikan dalam bab seterusnya). Reka bentuk khusus untuk operasi matriks menghasilkan prestasi per watt yang tinggi. Trillium mencapai peningkatan kecekapan tenaga sebanyak 67% berbanding v5e. Sambungan langsung antara cip melalui ICI (Inter-Chip Interconnect) menyamai NVLink dari segi latensi rendah dan jalur lebar tinggi, dengan konfigurasi Pod ribuan cip yang telah terbukti. Keserasian dengan rangka kerja JAX buatan Google amat tinggi, dan latihan Gemini dijalankan menggunakan kombinasi JAX+TPU.
Kelemahan TPU ialah: terhad kepada Google Cloud sahaja (tidak boleh dibeli untuk premis sendiri), ekosistem yang lebih kecil berbanding CUDA (sokongan PyTorch untuk TPU cenderung lebih lambat daripada versi CUDA), serta keluk pembelajaran yang wujud untuk pengoptimuman khusus TPU (reka bentuk saluran paip data, strategi sharding).
Dalam penanda aras MLPerf (anjuran MLCommons, piawaian industri untuk prestasi AI), NVIDIA merekodkan prestasi tertinggi dalam hampir semua kategori dengan Blackwell, manakala Google TPU v5p turut meraih keputusan kelas atasan dalam beberapa kategori. Walau bagaimanapun, MLPerf adalah penanda aras yang menguji "prestasi tertinggi" dan tidak mengukur kecekapan kos. Nisbah kos-prestasi yang merupakan kelebihan terbesar TPU tidak tercermin dalam struktur MLPerf.
Nisbah kos-prestasi TPU — Kelebihan Struktural yang Patut Diberi Perhatian
Dalam perdebatan GPU vs TPU, hujah yang paling sering diabaikan namun paling penting ialah nisbah kos-prestasi.
Google secara konsisten menekankan kelebihan kos pada setiap pengumuman generasi TPU. Semasa pengumuman TPU v5e (Ogos 2023), mereka mendakwa "kos latihan separuh berbanding v4, kos inferens kira-kira satu pertiga"; semasa pengumuman v5p (Disember 2023), "nisbah kos-prestasi yang lebih baik berbanding H100 untuk latihan model besar-besaran"; dan semasa pengumuman Trillium (2024), "prestasi sestiap dolar meningkat 4.7 kali berbanding v5e".
Walaupun perbandingan harga awan berubah mengikut konfigurasi dan rantau, gambaran kasar berikut muncul. Di Google Cloud, TPU v5e berharga kira-kira $1.20/jam per cip (atas permintaan), turun kepada kira-kira $0.50/jam dengan komitmen 3 tahun. Sebaliknya, H100 di Google Cloud yang sama (instans A3) ialah kira-kira $3.90/jam per GPU. H100 AWS (instans p5) ialah kira-kira $12.29/jam per GPU, manakala awan GPU seperti CoreWeave dan Lambda ialah kira-kira $2.00–$2.50/jam.
Dalam perbandingan kos latihan LLM, latihan model berskala LLaMA 2 70B dengan konfigurasi 2,048 unit H100 (anggaran AWS/Azure) berharga kira-kira $2–3 juta, manakala konfigurasi setara TPU v5p mengikut dakwaan Google boleh menjimatkan 30–50% kos, iaitu bersamaan $1–2 juta. Bagi kos per token inferens, Google mendakwa TPU v5e menawarkan peningkatan kecekapan kos sehingga 2.5 kali berbanding H100.
Terdapat tiga sebab struktur di sebalik kelebihan kos ini. Pertama, reka bentuk khusus domain TPU melebihi GPU dari segi kecekapan watt per operasi matriks — kecekapan yang diperoleh dengan mengorbankan kebolehgunaan umum tercermin dalam kos. Kedua, Google mengintegrasikan secara menegak reka bentuk, pembuatan (dioutsource kepada TSMC), dan operasi TPU, menghapuskan margin yang timbul apabila membeli GPU NVIDIA sebagai pihak ketiga. Kos penggunaan TPU secara dalaman di Google mungkin lebih rendah lagi berbanding harga pelanggan luar. Ketiga, pusat data Google mencapai kecekapan tenaga bertaraf dunia dengan PUE (Power Usage Effectiveness) sekitar 1.1, memastikan kos kuasa dan penyejukan kekal rendah.
Namun, terdapat pertimbangan penting dalam perbandingan kos ini. Perlu mengambil kira kesukaran perbandingan langsung (perbezaan struktur harga awan), kesan tahap pengoptimuman (perbandingan tidak adil tanpa kod yang dioptimumkan khusus untuk TPU/GPU masing-masing), dan kos tersembunyi (yuran pemindahan data, masa kejuruteraan, kos pembelajaran migrasi TPU). Selain itu, memandangkan TPU terhad kepada Google Cloud sahaja, ia bukan pilihan bagi syarikat yang mengutamakan strategi berbilang awan atau operasi on-premises.
Memandangkan lonjakan kos latihan AI — GPT-3 (anggaran $4.6 juta, 2020) → GPT-4 (anggaran melebihi $100 juta, 2023) → model generasi seterusnya (anggaran $500 juta–$1 bilion) — perbezaan nisbah kos-prestasi membawa impak dalam unit puluhan juta dolar. Ini menjadi motivasi ekonomi yang kuat untuk memilih TPU, terutamanya bagi syarikat permulaan yang mengutamakan kecekapan modal.
Pemilihan Infrastruktur Korporat——Mengapa Ia Berbeza-beza
Pilihan infrastruktur untuk pembangunan AI berbeza-beza dengan ketara bergantung kepada strategi syarikat, perkongsian, dan latar belakang teknikal.
OpenAI telah menjalin perkongsian strategik dengan Microsoft Azure, di mana latihan GPT-4/o dijalankan menggunakan GPU NVIDIA di Azure (dianggarkan puluhan ribu hingga 100,000 unit H100). Ketua Pegawai Eksekutif Sam Altman menyatakan "dalam jangka panjang, kepelbagaian cip yang dioptimumkan untuk AI adalah diperlukan," namun pada awal 2024, dilaporkan bahawa beliau merancang untuk mengumpul dana sebanyak 5 hingga 7 trilion dolar bagi pembuatan cip AI proprietari (Bloomberg). Walaupun rancangan tersebut tidak terlaksana, ia mencerminkan kebimbangan mendalam terhadap bekalan GPU.
Meta mempunyai strategi yang jelas: GPU NVIDIA secara eksklusif. Mark Zuckerberg mengumumkan bahawa Meta akan memperoleh kira-kira 350,000 unit H100 menjelang akhir 2024, dan LLaMA 3.1 405B dilatih menggunakan lebih daripada 16,000 unit H100. Cip tersuai MTIA untuk inferens (dengan peningkatan prestasi inferens 3x pada v2) sedang dibangunkan, namun GPU NVIDIA kekal sebagai teras latihan. Bagi Meta yang berpegang pada prinsip sumber terbuka, keserasian ekosistem CUDA dengan PyTorch adalah faktor utama dalam pemilihan GPU.
xAI (Elon Musk) lebih ekstrem lagi. Mereka membina kluster GPU tunggal terbesar di dunia, "Colossus," di Memphis, Tennessee, dengan 100,000 unit H100 beroperasi. Musk secara terbuka menyatakan "GPU adalah emas baru" dan "syarikat yang tidak dapat memperoleh GPU yang mencukupi tidak dapat bersaing dalam perlumbaan AI." Walaupun cip AI proprietari Dojo (D1) dibangunkan untuk Tesla, akhirnya pelaburan dalam GPU NVIDIA ditingkatkan dengan ketara, dan rancangan Dojo secara praktikalnya dikecilkan pada 2024 — sebuah contoh ikonik yang menggambarkan kesukaran pembangunan cip proprietari.
Sebaliknya, syarikat permulaan yang memilih TPU juga semakin bertambah. Anthropic melaksanakan latihan Claude menggunakan Google Cloud TPU dengan sokongan pelaburan lebih daripada 2 bilion dolar daripada Google (2023), sambil mengamalkan strategi hibrid dengan turut menggunakan GPU/Trainium di AWS berdasarkan pelaburan 4 bilion dolar daripada Amazon. Character.AI (diasaskan oleh Noam Shazeer dan Daniel De Freitas dari Google Brain) mengendalikan interaksi jutaan pengguna harian menggunakan TPU v4/v5e, dengan kecekapan kos inferens berskala besar sebagai faktor pemilihan utama. Cohere menggunakan kedua-dua TPU dan GPU, menyasarkan sokongan berbilang awan. MidJourney pada peringkat awal menggunakan Google Cloud TPU untuk melatih model penjanaan imej.
Google/DeepMind sendiri sudah tentunya berpusat pada TPU. Latihan Gemini dijalankan pada TPU v5p, PaLM 2 pada TPU v4 Pod, dan AlphaFold turut dijalankan pada TPU. Walau bagaimanapun, Google Cloud turut menawarkan NVIDIA H100/A100 kepada pelanggan, menunjukkan pendekatan "menyediakan pilihan." Sebahagian besar beban kerja inferens AI dalaman Google — Carian, YouTube, Gmail, Google Terjemah, Gemini — dilaporkan beroperasi di atas TPU.
Perspektif VC Silicon Valley — Ketahanan Dominasi NVIDIA dan Senario Alternatif
VC di Silicon Valley melihat perdebatan GPU vs TPU bukan sebagai "perbandingan prestasi cip," tetapi sebagai "risiko struktural industri AI."
Sequoia Capital dalam laporan "AI's $600B Question" yang diterbitkan pada separuh pertama 2024, menunjukkan hakikat bahawa pendapatan sebenar syarikat AI jauh lebih rendah berbanding jualan GPU NVIDIA yang melebihi $50 bilion. Laporan ini mencadangkan kemungkinan pelaburan berlebihan dalam GPU/pengkomputeran, serta menonjolkan kepentingan pengoptimuman kos melalui alternatif (TPU, cip tersuai).
a16z (Andreessen Horowitz) — Martin Casado dan Matt Bornstein — dalam "Who Owns the Generative AI Platform?" (2023) yang menganalisis struktur kos syarikat AI, menyatakan bahawa "margin kasar syarikat permulaan AI lebih rendah daripada syarikat SaaS tradisional akibat kos GPU." a16z menganggap lapisan infrastruktur AI (GPU/TPU) sebagai "cukai" yang dikuasai NVIDIA/Google, dan berpendapat bahawa peluang pelaburan VC terbesar terletak pada lapisan aplikasi, sambil turut memerhatikan "risiko kebergantungan kepada NVIDIA" dan kebangkitan silikon tersuai. Matt Bornstein meramalkan "2026 sebagai tahun ejen AI," namun turut menegaskan bahawa pengoptimuman kos infrastruktur asas akan menentukan hidup mati syarikat permulaan.
Tindakan pelaburan VC mencerminkan kesedaran ini. Sebagai "alternatif" kepada dominasi NVIDIA, pelaburan besar-besaran mengalir ke syarikat permulaan cip AI berikut: Cerebras Systems (jumlah dana ~$700 juta ≈ ¥105 bilion, cip skala wafer WSE-3), Groq (jumlah dana ~$640 juta ≈ ¥96 bilion, LPU khusus inferens), SambaNova Systems (jumlah dana ~$1.1 bilion ≈ ¥165 bilion, RDU), Tenstorrent (jumlah dana ~$300 juta ≈ ¥45 bilion, berasaskan RISC-V di bawah pimpinan Jim Keller), Etched (jumlah dana ~$120 juta ≈ ¥18 bilion, ASIC khusus Transformer "Sohu").
Konsensus dalam kalangan VC disusun dalam tiga ufuk masa. Jangka pendek (1–3 tahun): dominasi NVIDIA kekal kukuh — parit CUDA kuat, dan kemas kini generasi Blackwell/Rubin berlaku dengan pantas. Jangka sederhana (3–5 tahun): silikon tersuai (termasuk TPU) akan meningkatkan bahagian pasaran, terutamanya dalam pasaran inferens. Jangka panjang (melebihi 5 tahun): persekitaran heterogen (gabungan GPU+TPU+ASIC tersuai) dijangka menjadi standard.
Goldman Sachs dalam laporan "AI Infrastructure: The Next $1 Trillion Opportunity" (2024) mengiktiraf NVIDIA sebagai pemenang jangka pendek, namun meletakkan Google TPU dan AWS Trainium sebagai "alternatif paling berpotensi." Morgan Stanley menganalisis bahawa "parit NVIDIA bukan pada perkakasan tetapi pada ekosistem CUDA," manakala Stacy Rasgon dari Bernstein Research — analis paling terkemuka bagi NVIDIA — menyatakan bahawa "daya saing NVIDIA akan bertahan dalam beberapa tahun mendatang," namun turut menunjukkan kemungkinan bahawa margin kasar akan tertekan dalam jangka panjang akibat kebangkitan ASIC/cip tersuai.
Dakwaan Tokoh Terkenal——Pihak GPU vs Pihak TPU
Perbahasan GPU lwn TPU memecah-belahkan pandangan di kalangan tokoh-tokoh terkemuka Silicon Valley.
Jensen Huang (CEO NVIDIA) secara konsisten berhujah bahawa kepelbagaian penggunaan GPU memberikan kelebihan jangka panjang. "Cip yang direka khusus untuk beban kerja tertentu mungkin lebih cekap buat sementara, tetapi model AI berkembang dengan pesat. Platform GPU serbaguna lebih menguntungkan dalam jangka panjang." Mengenai CUDA, beliau menyatakan bahawa "pangkalan pemasangan berjuta-juta unit adalah ekosistem yang dibina selama lebih 15 tahun dan tidak boleh disalin dalam sekelip mata," manakala di GTC 2024 beliau mengisytiharkan "Revolusi Industri seterusnya telah bermula." Peta jalan NVIDIA mengumumkan kemas kini generasi dalam kitaran satu tahun (Blackwell→Rubin→Vera), dipercepatkan daripada kitaran dua tahun yang biasa.
David Patterson (Profesor Emeritus UC Berkeley, Google Distinguished Engineer) adalah pendukung paling kuat bagi pihak TPU. Sebagai pencipta RISC dan RAID yang telah menorehkan namanya dalam sejarah reka bentuk semikonduktor, beliau membuktikan keunggulan TPU dalam makalah 2020 bertajuk "A Domain-Specific Supercomputer for Training Deep Neural Networks," dan pada 2023 menerbitkan makalah ISCA bersama Jeff Dean yang mendedahkan butiran seni bina TPU v4. Beliau berpendapat bahawa "seni bina khusus domain jauh lebih cekap berbanding pemproses serba guna."
Jeff Dean (Saintis Ketua Google) adalah tokoh di sebalik pembangunan TPU secara menyeluruh. "Falsafah reka bentuk TPU ialah memanfaatkan sifat asas pengiraan rangkaian neural — memaksimumkan daya pemprosesan walaupun perlu mengorbankan ketepatan pada tahap tertentu," katanya. Sebagai penganut hukum penskalaan, beliau memposisikan TPU sebagai "alat untuk merealisasikan penskalaan tersebut secara ekonomik, kerana peningkatan jumlah pengiraan adalah kunci kepada peningkatan prestasi AI."
Yann LeCun (Saintis AI Ketua Meta, Profesor NYU) menyokong GPU tetapi mempunyai perspektif tersendiri. Semua penyelidikan AI berskala besar Meta (termasuk siri LLaMA) dijalankan pada GPU NVIDIA. "Kelajuan evolusi GPU serbaguna terlalu tinggi sehingga ASIC sukar mengejar ketinggalan," katanya, sambil turut mengakui kepentingan cip khusus domain dalam jangka panjang. Sebagai penyokong sumber terbuka, beliau bimbang dengan pergantungan yang berlebihan kepada vendor tertentu.
Jim Keller (CEO Tenstorrent, pereka AMD Zen/Apple A-series/Tesla Dojo) mencabar NVIDIA secara langsung. "Parit pertahanan NVIDIA tidak sedalam yang disangka. Jika ada alternatif yang baik, penghijrahan akan berlaku." Beliau mempromosikan seni bina terbuka berasaskan RISC-V dan menegaskan bahawa "model GPU+CUDA bukanlah yang paling optimum."
Elon Musk telah membuat keputusan dalam aspek praktikal. Walaupun membangunkan cip AI proprietari Dojo di Tesla, beliau akhirnya membeli 100,000 unit NVIDIA H100 untuk xAI. Ungkapannya "GPU adalah emas baharu" adalah ungkapan yang paling ringkas menggambarkan realiti dominasi NVIDIA.
Andrew Ng (Profesor Stanford, pengasas bersama Coursera) mengambil pendirian pertengahan yang pragmatik. Sebagai pelopor penyelidikan pembelajaran mendalam berasaskan GPU awal, beliau menyatakan: "Yang lebih penting ialah apa yang anda bina, bukan cip mana yang anda gunakan. Namun pada masa ini, ekosistem GPU+CUDA adalah yang paling produktif."
GPU vs TPU Dalam Angka — Data Pasaran dan Trend Pelaburan
Angka-angka dalam pasaran semikonduktor AI mencerminkan kedua-dua dominasi kukuh NVIDIA dan kebangkitan kuasa-kuasa yang mencabar kedudukannya.
Pendapatan pusat data NVIDIA melonjak daripada $15 bilion (kira-kira ¥2.25 trilion) pada tahun fiskal 2023 (tempoh berakhir Januari 2023) kepada $47.5 bilion (kira-kira ¥7.125 trilion) pada tahun fiskal 2024, dan $115.2 bilion (kira-kira ¥17.28 trilion) pada tahun fiskal 2025 — meningkat kira-kira lapan kali ganda dalam masa dua tahun sahaja. NVIDIA menguasai anggaran 70–95% pasaran pemecut latihan AI. a16z menggambarkan skala pendapatan ini sebagai "cukai industri AI."
AMD melancarkan serangan balas dengan MI300X, menetapkan sasaran pendapatan pemecut AI 2024 sekitar $5 bilion (kira-kira ¥750 bilion). Walau bagaimanapun, ini masih kurang daripada satu persepuluh skala NVIDIA, dengan bahagian pasaran yang dianggarkan hanya sekitar 5–15%.
Angka jualan langsung Google Cloud TPU tidak didedahkan kepada umum. Alphabet melaporkan keseluruhan Google Cloud mencatat pendapatan tahunan 2024 sebanyak kira-kira $43 bilion (kira-kira ¥6.45 trilion, +28% berbanding tahun sebelumnya), dengan pencapaian keuntungan operasi yang positif. Bilangan syarikat yang menggunakan TPU dilaporkan melebihi beberapa ratus, namun penggunaan dalaman Google sendiri adalah jauh lebih besar. Sebahagian besar beban kerja inferens untuk Carian, YouTube, Gmail, Google Terjemah, dan Gemini beroperasi di atas TPU.
Pelbagai firma penyelidikan meramalkan bahawa keseluruhan pasaran semikonduktor AI akan mencapai kira-kira $70–80 bilion (kira-kira ¥10.5 trilion–¥12 trilion) pada 2024, dan $300–400 bilion (kira-kira ¥45 trilion–¥60 trilion) menjelang 2030 — pertumbuhan tahunan sebanyak 20–30%.
Perbelanjaan modal pembekal awan turut meningkat dengan pesat. Sundar Pichai (Ketua Pegawai Eksekutif Google/Alphabet) mengumumkan rancangan perbelanjaan modal berskala $75 bilion setahun (kira-kira ¥11.25 trilion). Microsoft dan Amazon juga merancang pelaburan pada skala yang sama. NVIDIA merupakan penerima manfaat terbesar dalam "perlumbaan senjata infrastruktur AI" ini, namun pelaburan dalam pembangunan cip tersuai oleh setiap syarikat turut semakin pesat.
Lonjakan kos latihan AI semakin menonjolkan kepentingan kecekapan kos. Daripada anggaran kos latihan GPT-3 sebanyak $4.6 juta (2020) kepada anggaran lebih $100 juta untuk GPT-4 (2023), model generasi seterusnya dijangka memerlukan $500 juta–$1 bilion. Pada skala ini, penjimatan 30–50% yang ditawarkan oleh kelebihan kos TPU bermakna perbezaan sebanyak $150 juta–$500 juta.
Gelombang Silikon Tersuai — Laluan Ketiga Selain GPU dan TPU
Selain pertentangan binari antara GPU dan TPU, arus ketiga yang dikenali sebagai "silikon tersuai" semakin mendapat momentum.
Amazon/AWS telah melancarkan Trainium 2 (2024) bagi mengurangkan kebergantungan pada NVIDIA. Mereka sedang membina kluster Trainium berskala besar bernama "Project Rainier" untuk melatih model generasi seterusnya daripada Anthropic. Inferentia 2 yang khusus untuk inferens turut digunakan secara meluas.
Microsoft mengumumkan cip AI pertamanya, Maia 100, pada November 2023. Cip ini digunakan untuk Azure bersama-sama CPU berasaskan Arm, Cobalt, namun skalanya masih terhad dan kerjasama dengan NVIDIA kekal sebagai tunjang utama buat masa terdekat.
Meta mencapai peningkatan prestasi inferens sebanyak 3 kali ganda dengan MTIA v2. Namun begitu, latihan masih berpusat pada GPU NVIDIA, manakala MTIA hanya khusus untuk pengoptimuman kos inferens.
Apple menjalankan inferens AI pada peranti menggunakan cip Apple Silicon (siri M) mereka sendiri, tetapi masih menggunakan GPU NVIDIA untuk latihan di pusat data.
Selain daripada perkembangan ini, cabaran daripada syarikat permulaan turut berterusan. Cerebras (cip berskala wafer), Groq (LPU khusus inferens dengan kependaman ultra-rendah), Tenstorrent (berasaskan RISC-V, dipimpin oleh Jim Keller), dan Etched (ASIC khusus Transformer) — masing-masing menghadapi kubu kuat NVIDIA dengan pendekatan yang berbeza.
Laporan AI Index 2024 daripada Stanford HAI (Human-Centered AI Institute) memberi amaran bahawa kos pengiraan merupakan halangan utama dalam penyelidikan AI, dan jurang akses kepada GPU/TPU menghalang "demokratisasi penyelidikan AI".
Trend Masa Depan——Menuju Masa Depan yang Heterogen
Persaingan GPU lwn TPU pada akhirnya bukan tentang "siapa yang menang", sebaliknya senario yang paling mungkin ialah penumpuan ke arah persekitaran heterogen (campuran pelbagai cip).
Peta jalan NVIDIA semakin pesat. Blackwell (2024~2025) → Rubin (2026, HBM4, NVLink generasi baharu) → Vera (2028), dengan pengisytiharan peralihan daripada kitaran 2 tahun kepada kitaran 1 tahun. Bukan sahaja prestasi cip secara individu meningkat, malah pengintegrasian platform menyeluruh turut berkembang, merangkumi NVLink, NVSwitch, Spectrum-X Ethernet, serta perisian (NIM, NEMO).
Google turut meneruskan pembaruan generasi. Generasi seterusnya selepas Trillium (v6) dijangka dilancarkan dalam kitaran 18~24 bulan. Integrasi dengan CPU proprietari "Axion" (berasaskan Arm, diumumkan 2024) turut berkembang, dengan gambaran "AI Hypercomputer" yang menggabungkan TPU+GPU+CPU. Pengoptimuman inferens merupakan tema yang amat penting bagi penggunaan Gemini berskala besar.
Di bahagian perisian, langkah untuk meningkatkan kebolehpindahan antara cip semakin pesat. Penyeragaman pengkompil ML seperti MLIR dan OpenXLA semakin maju, manakala Triton (dibangunkan oleh OpenAI/Meta) turut meneroka pengembangan ke bahagian belakang selain GPU. Apabila teknologi ini matang, halangan kunci masuk CUDA akan berkurangan secara beransur-ansur.
Jika ramalan analis digabungkan, NVIDIA dijangka mengekalkan bahagian pasaran 60~80% dalam pasaran latihan pada 2025~2027, namun menurun kepada 50~60% dalam pasaran inferens. Pada 2028~2030, cip tersuai (TPU, Trainium, ASIC pelbagai syarikat) berpotensi mencapai 30~40% dalam pasaran latihan. Pasaran inferens yang lebih sensitif terhadap kos merupakan kawasan di mana penetrasi TPU/cip tersuai berlaku paling pesat.
Sekiranya visi Jensen Huang bahawa "setiap syarikat akan menjadi kilang AI" menjadi kenyataan, peralatan kilang tersebut bukan sahaja terdiri daripada GPU NVIDIA, malah akan merangkumi konfigurasi pelbagai yang menggabungkan Google TPU, AWS Trainium, dan ASIC tersuai pelbagai syarikat. Persoalannya bukan lagi tentang kemenangan "GPU lwn TPU", sebaliknya era di mana setiap syarikat memilih cip yang paling optimum berdasarkan beban kerja, skala, dan struktur kos masing-masing telah tiba.
Impak Terhadap Industri
Pertama, dominasi GPU NVIDIA tidak akan tergoyahkan dalam jangka pendek, namun struktur kos yang dikenali sebagai "cukai NVIDIA" berpotensi mengehadkan pertumbuhan keseluruhan industri AI. Angka hasil pusat data sebesar 115.2 bilion dolar (FY2025) menggambarkan besarnya kos yang dibayar industri AI kepada "kilang pengkomputeran". "Jurang antara pelaburan GPU dan hasil" yang dikenal pasti oleh Sequoia Capital telah mewujudkan tekanan anjakan struktural ke arah alternatif pengoptimuman kos — TPU, Trainium, dan ASIC tersuai.
Kedua, nisbah prestasi-kos TPU merupakan kelebihan yang tidak boleh diabaikan, terutama bagi syarikat permulaan AI yang mengutamakan kecekapan modal. Pengurangan kos latihan sebanyak 30–50% akan bermaksud perbezaan ratusan juta dolar pada skala model generasi seterusnya (kos latihan dianggarkan 500 juta hingga 1 bilion dolar). Fakta bahawa syarikat-syarikat seperti Anthropic, Character.AI, dan Cohere memilih TPU menunjukkan bahawa kelebihan kos telah memasuki fasa "amalan" dan bukan sekadar "teori".
Ketiga, ekosistem CUDA merupakan kekuatan terbesar NVIDIA, namun pada masa yang sama ia juga menjadi hambatan bagi keseluruhan industri AI. Pangkalan pembangun yang melebihi 4 juta orang menjadikan kos peralihan sangat tinggi, namun dengan perkembangan teknologi pengkompil merentas cip seperti MLIR/OpenXLA/Triton, halangan ini dijangka berkurangan dalam jangka sederhana. Sama ada pemerhatian Jim Keller bahawa "parit pertahanan NVIDIA tidak sedalam yang disangka" akan menjadi kenyataan atau tidak bergantung kepada kematangan teknologi perisian ini.
Keempat, pasaran semikonduktor AI sedang beralih daripada pertentangan dua pihak GPU lwn TPU ke arah persekitaran heterogen (campuran pelbagai cip). Dengan cabaran daripada Amazon Trainium, Microsoft Maia, Meta MTIA, serta syarikat permulaan seperti Cerebras, Groq, Tenstorrent, dan Etched, syarikat-syarikat kini terpaksa memilih cip berdasarkan beban kerja, skala, dan struktur kos mereka. Dominasi GPU NVIDIA dalam pasaran latihan akan berterusan bagi masa terdekat, namun penetrasi TPU/cip tersuai paling pesat berlaku dalam pasaran inferens.
Maklumat Rujukan: NVIDIA FY2025 Annual Report & Earnings (Jan 2025), NVIDIA GTC 2024 Keynote (Jensen Huang), Google Cloud Next 2024 (Pengumuman Trillium/TPU v6), Google ISCA 2023 TPU v4 Paper (Jeff Dean, David Patterson et al.), Sequoia Capital "AI's $600B Question" (2024), a16z "Who Owns the Generative AI Platform?" (Martin Casado, Matt Bornstein, 2023), Goldman Sachs "AI Infrastructure: The Next $1 Trillion Opportunity" (2024), Laporan Liputan NVIDIA Morgan Stanley, Analisis Semikonduktor Bernstein Research (Stacy Rasgon), Stanford HAI AI Index Report 2024, MLCommons MLPerf Training v4.0 Results (2024), Harga & Dokumentasi Google Cloud TPU, Harga AWS P5/Trainium, Harga Azure ND H100, David Patterson "A Domain-Specific Supercomputer for Training Deep Neural Networks" (Communications of the ACM, 2020), Pengumuman Perkongsian Anthropic-Google Cloud (2023), Laporan Infrastruktur TPU Character.AI, Pengumuman Colossus xAI Elon Musk, Laporan Pembiayaan Cip AI Sam Altman (Bloomberg, 2024), Temu Bual Tenstorrent Jim Keller & Visi RISC-V, Ulasan Perkakasan AI Yann LeCun, Penyelidikan DL Berasaskan GPU Andrew Ng, Pusingan Pembiayaan Cerebras/Groq/SambaNova/Etched (TechCrunch, The Information), Pengumuman CPU Google Axion (2024), Peta Jalan NVIDIA Rubin/Vera (GTC 2024), Liputan "Cukai NVIDIA" The Information, Analisis Seni Bina TPU IEEE Spectrum, Liputan Khas Semikonduktor NVIDIA/AI Nikkei Cross Tech