Nguồn gốc của GPU — Từ gaming đến bá chủ AI

Con đường để GPU của NVIDIA trở thành biểu tượng của chip AI được định hình bởi tầm nhìn xa của một doanh nhân và một số bước ngoặt lịch sử.

Năm 1993, Jensen Huang, Chris Malachowsky và Curtis Priem thành lập NVIDIA tại Santa Clara, California. Lĩnh vực kinh doanh ban đầu là chip đồ họa dành cho game PC. Năm 1999, NVIDIA ra mắt GeForce 256 và cũng chính là đơn vị đặt ra thuật ngữ "GPU (Graphics Processing Unit)". Trong những năm đầu thập niên 2000, hãng đã có cuộc tranh giành thị phần khốc liệt với ATI (sau này là AMD) trên thị trường GPU gaming.

Bước ngoặt đầu tiên xảy ra vào năm 2006 với sự ra đời của CUDA (Compute Unified Device Architecture). CUDA cung cấp một mô hình lập trình cho phép sử dụng hàng nghìn lõi của GPU — vốn được thiết kế chuyên biệt cho việc dựng hình đồ họa — vào tính toán song song đa năng. Khả năng tận dụng tính song song của GPU thông qua code tương tự ngôn ngữ C đã thu hút đông đảo các nhà nghiên cứu trong lĩnh vực tính toán khoa học và mô phỏng vật lý. Tại thời điểm đó, không ai có thể hình dung rằng CUDA sẽ trở thành "hào lũy (moat)" của ngành công nghiệp AI.

Bước ngoặt thứ hai là vào năm 2012, với "cú sốc AlexNet". Alex Krizhevsky, Ilya Sutskever và Geoffrey Hinton đã giành chiến thắng vang dội tại cuộc thi ImageNet với mạng nơ-ron tích chập "AlexNet" được huấn luyện trên 2 GPU GTX 580. Thành tựu này đã cải thiện劇 劇tỷ lệ lỗi nhận dạng hình ảnh từ 26% xuống còn 16%, trở thành điểm khởi đầu cho "cuộc cách mạng deep learning". Jensen Huang sau này gọi khoảnh khắc đó là "Big Bang" và quyết định đưa AI trở thành lĩnh vực kinh doanh cốt lõi trong tương lai của NVIDIA.

Kể từ đó, NVIDIA liên tục phát triển GPU dành cho trung tâm dữ liệu với tốc độ vũ bão. Thế hệ Volta năm 2017 với Tesla V100 lần đầu tiên trang bị Tensor Core chuyên dụng cho tính toán AI, đạt tốc độ xử lý cao hơn đáng kể nhờ tính toán độ chính xác hỗn hợp (FP16/FP32). Thế hệ Ampere năm 2020 với A100 đạt 312 TFLOPS (TF32), kết hợp với nhu cầu AI bùng nổ trong đại dịch COVID-19, đã đẩy doanh thu trung tâm dữ liệu tăng vọt. Thế hệ Hopper năm 2022 với H100 được trang bị Transformer Engine, hỗ trợ tính toán FP8, trở thành "chuẩn mực" cho việc huấn luyện các mô hình ngôn ngữ lớn dòng GPT. Năm 2024, NVIDIA công bố thế hệ Blackwell với B200/GB200 — chip 208 tỷ bóng bán dẫn tích hợp hai die trong một package, hỗ trợ FP4 với hiệu năng đạt 20 PFLOPS. GB200 NVL72 (rack làm mát bằng chất lỏng 72 GPU) được quảng bá có hiệu năng suy luận cao gấp 30 lần so với thế hệ trước.

Trong năm tài chính 2025 (kết thúc tháng 1/2025), doanh thu của NVIDIA đạt 130,5 tỷ USD (khoảng 19.575 tỷ yên), tăng 114% so với năm trước. Trong đó, mảng kinh doanh trung tâm dữ liệu đạt 115,2 tỷ USD (khoảng 17.280 tỷ yên), chiếm 88% tổng doanh thu. Vốn hóa thị trường vượt 3 nghìn tỷ USD (khoảng 450 nghìn tỷ yên), đưa NVIDIA trở thành một trong những công ty có giá trị nhất thế giới.

Nguồn gốc của TPU — Lý do Google tự chế tạo chip riêng

Động lực thúc đẩy Google phát triển TPU không phải là tham vọng kỹ thuật thuần túy, mà là tất yếu kinh tế.

Vào đầu những năm 2010, việc sử dụng deep learning trong nội bộ Google tăng trưởng bùng nổ. Nhận dạng giọng nói, Google Dịch, xếp hạng tìm kiếm, gợi ý YouTube — mạng nơ-ron được tích hợp vào mọi dịch vụ. Theo ước tính nội bộ của Google, "nếu tất cả người dùng chỉ sử dụng tìm kiếm bằng giọng nói 3 phút mỗi ngày, công ty sẽ cần nhân đôi công suất trung tâm dữ liệu thời điểm đó." Việc liên tục mua số lượng lớn GPU của NVIDIA không bền vững cả về chi phí lẫn nguồn cung.

Câu trả lời của Google cho thách thức này là Kiến trúc chuyên dụng theo miền (DSA) — chip tự thiết kế chuyên biệt cho tính toán mạng nơ-ron. Jeff Dean (khi đó là trưởng nhóm Google Brain) và David Patterson (Giáo sư danh dự UC Berkeley, người phát minh RISC, Google Distinguished Engineer từ năm 2016) cùng các đồng nghiệp đã dẫn dắt dự án, và TPU v1 bắt đầu hoạt động nội bộ vào năm 2015.

TPU v1 là chip số nguyên 8-bit chỉ dành cho suy luận, với hiệu năng 92 TOPS (INT8). Tháng 3 năm 2016, khi AlphaGo của DeepMind đánh bại Lee Sedol, TPU v1 được sử dụng cho quá trình suy luận, và cái tên này trở nên nổi tiếng toàn cầu.

Triết lý thiết kế của TPU khác biệt căn bản so với GPU. Trong khi GPU hướng đến tính toán song song đa năng, TPU áp dụng cấu trúc Systolic Array, chuyên biệt cho phép nhân ma trận (GEMM). Bằng cách tối đa hóa việc tái sử dụng dữ liệu, hiệu quả tính toán trên mỗi watt được nâng cao. Ngoài ra, định dạng BFloat16 (Brain Float 16) mà Google tiên phong đưa vào ngành cho phép tăng đáng kể thông lượng với sự đánh đổi nhỏ về độ chính xác. BFloat16 sau đó được NVIDIA GPU (từ V100 trở đi) và Intel CPU áp dụng, trở thành tiêu chuẩn ngành.

TPU liên tục phát triển qua các thế hệ. Phiên bản v2 năm 2017 hỗ trợ huấn luyện và tích hợp HBM, đồng thời bắt đầu cung cấp công khai trên Google Cloud. Phiên bản v3 năm 2018 giới thiệu làm mát bằng chất lỏng. Phiên bản v4 năm 2021 trang bị SparseCore và đạt hơn 1 EXAFLOPS với cấu hình Pod 4.096 chip thông qua bộ chuyển mạch quang học (OCS). Năm 2023, Google tung ra v5e (ưu tiên hiệu quả chi phí) và v5p (ưu tiên hiệu năng, Pod 8.960 chip). Và đến năm 2024, thế hệ thứ sáu "Trillium" được công bố, đạt hiệu năng huấn luyện gấp 4,7 lần và hiệu quả năng lượng tăng 67% so với v5e.

Thế mạnh và điểm yếu về mặt kỹ thuật — Tính đa năng vs Hiệu suất chuyên biệt

Khi sắp xếp các đặc tính kỹ thuật của GPU và TPU, sự khác biệt trong triết lý thiết kế của hai loại trở nên rõ ràng.

Điểm mạnh của NVIDIA GPU là, thứ nhất, tính đa dụng. Không chỉ huấn luyện và suy luận AI, mà còn có thể xử lý mọi khối lượng công việc tính toán song song như tính toán khoa học, rendering, mô phỏng, khai thác tiền điện tử. Thứ hai là quy mô của hệ sinh thái CUDA. Ước tính hơn 4 triệu nhà phát triển CUDA, bộ thư viện tối ưu hóa như cuDNN, TensorRT, NCCL, Triton, và tất cả các framework PyTorch, TensorFlow, JAX đều hỗ trợ tối ưu hóa CUDA ở mức hạng nhất. Nền tảng phần mềm được xây dựng trong hơn 15 năm này "không thể sao chép trong một sớm một chiều" (Jensen Huang). Thứ ba, thông qua giao tiếp băng thông cao giữa các GPU bằng NVLink/NVSwitch (H100 đạt 900 GB/s hai chiều) và tích hợp mạng InfiniBand thông qua việc mua lại Mellanox (2019, 6,9 tỷ USD ≈ 1.035 tỷ yên), đã thực hiện tối ưu hóa end-to-end từ chip đến cluster.

Mặt khác, điểm yếu của GPU cũng rõ ràng. Mức tiêu thụ điện năng đạt 700W với H100 và hơn 1.000W với B200, khiến chi phí điện và làm mát của trung tâm dữ liệu trở nên khổng lồ. Giá của H100 là khoảng 25.000~40.000 USD (khoảng 3,75~6 triệu yên) mỗi chiếc, và hệ thống DGX H100 (8 GPU) hơn 200.000 USD (khoảng 30 triệu yên). Năm 2023~2024, tình trạng thiếu hụt nguồn cung nghiêm trọng xảy ra, thời gian chờ kéo dài đến 6~12 tháng. Và sự phụ thuộc vào CUDA vừa là "hào lũy" vừa là "khóa chặt". Chi phí chuyển đổi sang phần cứng khác cực kỳ cao, và ROCm của AMD vẫn chưa theo kịp độ trưởng thành của CUDA.

Điểm mạnh của TPU nằm ở tỷ lệ hiệu năng/chi phí trên hết (sẽ trình bày chi tiết ở chương sau). Thiết kế chuyên dụng cho phép tính ma trận mang lại hiệu năng cao trên mỗi watt. Trillium đã đạt được cải thiện hiệu quả năng lượng 67% so với v5e. Kết nối trực tiếp giữa các chip bằng ICI (Inter-Chip Interconnect) thực hiện độ trễ thấp và băng thông cao tương đương NVLink, và cấu hình Pod hàng nghìn chip đã được kiểm chứng. Sự tương thích với framework JAX do Google phát triển cực kỳ cao, và quá trình huấn luyện Gemini được thực hiện bằng tổ hợp JAX + TPU.

Điểm yếu của TPU là chỉ dành riêng cho Google Cloud (không thể mua để dùng on-premise), hệ sinh thái nhỏ hơn so với CUDA (hỗ trợ TPU của PyTorch thường chậm hơn phiên bản CUDA), và tồn tại đường cong học tập đối với các tối ưu hóa đặc thù của TPU (thiết kế data pipeline, chiến lược sharding).

Trong benchmark MLPerf (do MLCommons tổ chức, tiêu chuẩn ngành về hiệu năng AI), NVIDIA ghi nhận hiệu năng cao nhất ở hầu hết mọi hạng mục với Blackwell, trong khi Google TPU v5p cũng đạt kết quả hàng đầu ở nhiều hạng mục. Tuy nhiên, MLPerf là benchmark cạnh tranh về "hiệu năng tối đa" và không đo lường hiệu quả chi phí. Cấu trúc của MLPerf không phản ánh tỷ lệ hiệu năng/chi phí, vốn là điểm mạnh lớn nhất của TPU.

Tỷ lệ hiệu suất/chi phí của TPU——Lợi thế cấu trúc đáng chú ý

Trong cuộc tranh luận GPU vs TPU, luận điểm thường bị bỏ qua nhất nhưng lại quan trọng nhất chính là tỷ lệ hiệu suất trên chi phí.

Google đã nhất quán nhấn mạnh lợi thế về chi phí trong mỗi lần công bố thế hệ TPU mới. Khi ra mắt TPU v5e (tháng 8/2023), họ tuyên bố "giảm một nửa chi phí huấn luyện và khoảng một phần ba chi phí suy luận so với v4"; khi ra mắt v5p (tháng 12/2023) là "tỷ lệ hiệu suất trên chi phí vượt trội so với H100 trong huấn luyện mô hình quy mô lớn"; và khi ra mắt Trillium (2024) là "cải thiện hiệu suất trên mỗi đô la gấp 4,7 lần so với v5e".

So sánh trực tiếp giá dịch vụ đám mây có thể biến động tùy theo cấu hình và khu vực, nhưng ước tính sơ bộ cho thấy bức tranh như sau: trên Google Cloud, TPU v5e có giá khoảng 1,20 USD/giờ mỗi chip (theo yêu cầu), giảm xuống còn khoảng 0,50 USD/giờ với cam kết 3 năm. Trong khi đó, H100 trên cùng Google Cloud (phiên bản A3) có giá khoảng 3,90 USD/giờ mỗi GPU. H100 trên AWS (phiên bản p5) khoảng 12,29 USD/giờ mỗi GPU, còn các nhà cung cấp đám mây GPU như CoreWeave hay Lambda dao động khoảng 2,00–2,50 USD/giờ.

Trong so sánh chi phí huấn luyện LLM, việc huấn luyện một mô hình quy mô LLaMA 2 70B với cấu hình 2.048 H100 (giả định AWS/Azure) tốn khoảng 2–3 triệu USD, trong khi cấu hình tương đương với TPU v5p được Google khẳng định giảm 30–50% chi phí, tức khoảng 1–2 triệu USD. Về chi phí suy luận trên mỗi token, Google tuyên bố TPU v5e cải thiện hiệu quả chi phí lên đến 2,5 lần so với H100.

Có ba lý do cấu trúc tạo nên lợi thế chi phí này. Thứ nhất, thiết kế chuyên dụng cho từng lĩnh vực giúp TPU vượt trội so với GPU về hiệu quả tính toán ma trận trên mỗi watt — sự đánh đổi tính đa dụng được phản ánh trực tiếp vào chi phí. Thứ hai, Google tích hợp dọc toàn bộ chuỗi thiết kế, sản xuất (ủy thác cho TSMC) và vận hành TPU, loại bỏ phần lợi nhuận phát sinh khi mua GPU của NVIDIA qua bên thứ ba. Chi phí sử dụng TPU nội bộ của Google có khả năng còn thấp hơn mức giá công bố cho khách hàng bên ngoài. Thứ ba, các trung tâm dữ liệu của Google đạt PUE (Power Usage Effectiveness) khoảng 1,1 — thuộc hàng hiệu quả năng lượng tốt nhất thế giới — giúp kiểm soát chi phí điện và làm mát ở mức thấp.

Tuy nhiên, có những lưu ý quan trọng trong so sánh chi phí. Cần tính đến khó khăn trong so sánh trực tiếp (sự khác biệt trong cấu trúc giá dịch vụ đám mây), ảnh hưởng của mức độ tối ưu hóa (so sánh không công bằng nếu không tối ưu hóa code cho từng nền tảng TPU/GPU), và chi phí ẩn (phí truyền dữ liệu, thời gian kỹ thuật, chi phí học tập khi chuyển sang TPU). Ngoài ra, vì TPU chỉ khả dụng trên Google Cloud, đây không phải lựa chọn phù hợp với các doanh nghiệp theo đuổi chiến lược đa đám mây hoặc vận hành tại chỗ.

Khi chi phí huấn luyện AI tăng vọt — GPT-3 (ước tính 4,6 triệu USD, 2020) → GPT-4 (ước tính hơn 100 triệu USD, 2023) → các mô hình thế hệ tiếp theo (ước tính 500 triệu–1 tỷ USD) — sự chênh lệch về tỷ lệ hiệu suất trên chi phí có thể tạo ra tác động lên đến hàng chục triệu đô la. Đây chính là động lực kinh tế mạnh mẽ để lựa chọn TPU, đặc biệt đối với các startup coi trọng hiệu quả sử dụng vốn.

Lựa chọn cơ sở hạ tầng của doanh nghiệp — Tại sao lại có sự phân hóa

Việc lựa chọn cơ sở hạ tầng cho phát triển AI có sự phân hóa lớn tùy theo chiến lược, quan hệ đối tác và nền tảng kỹ thuật của từng doanh nghiệp.

OpenAI có quan hệ đối tác chiến lược với Microsoft Azure, và việc huấn luyện GPT-4/o được thực hiện trên GPU NVIDIA (ước tính hàng chục nghìn đến 100.000 chiếc H100) trên Azure. CEO Sam Altman phát biểu rằng "về lâu dài cần có nhiều loại chip được tối ưu hóa cho AI", đồng thời theo Bloomberg, đầu năm 2024 ông từng ấp ủ kế hoạch huy động 5–7 nghìn tỷ đô la để sản xuất chip AI riêng. Mặc dù kế hoạch đó không thành hiện thực, nhưng nó cho thấy mối lo ngại sâu sắc về nguồn cung GPU.

Meta thể hiện rõ chiến lược chỉ dùng GPU NVIDIA. Mark Zuckerberg tuyên bố Meta sẽ đảm bảo khoảng 350.000 chiếc H100 vào cuối năm 2024, và LLaMA 3.1 405B được huấn luyện trên ước tính hơn 16.000 chiếc H100. Công ty đang phát triển chip tùy chỉnh MTIA cho suy luận (cải thiện hiệu suất suy luận gấp 3 lần ở phiên bản v2), nhưng GPU NVIDIA vẫn là trung tâm cho việc huấn luyện. Đối với Meta theo chủ nghĩa mã nguồn mở, sự tương thích của hệ sinh thái CUDA với PyTorch là lý do lớn nhất cho việc chọn GPU.

xAI (Elon Musk) còn cực đoan hơn. Công ty đã xây dựng cụm GPU đơn lớn nhất thế giới "Colossus" tại Memphis, Tennessee, với 100.000 chiếc H100 đang hoạt động. Musk công khai tuyên bố "GPU là vàng mới" và "các công ty không thể đảm bảo đủ GPU sẽ không thể tham gia cuộc đua AI". Mặc dù Tesla đã phát triển chip AI riêng Dojo (D1), nhưng cuối cùng họ đã tăng mạnh đầu tư vào GPU NVIDIA và thực tế thu hẹp kế hoạch Dojo vào năm 2024. Đây là ví dụ điển hình cho thấy sự khó khăn trong việc phát triển chip nội bộ.

Mặt khác, các startup chọn TPU cũng ngày càng tăng. Anthropic thực hiện huấn luyện Claude trên Google Cloud TPU dựa trên khoản đầu tư hơn 2 tỷ đô la từ Google (2023), đồng thời áp dụng chiến lược hybrid kết hợp GPU/Trainium trên AWS nhờ khoản đầu tư 4 tỷ đô la từ Amazon. Character.AI (được thành lập bởi Noam Shazeer và Daniel De Freitas, cựu nhân viên Google Brain) vận hành xử lý hội thoại cho hàng triệu người dùng mỗi ngày trên TPU v4/v5e, chọn hiệu quả chi phí cho suy luận quy mô lớn là yếu tố chính. Cohere sử dụng cả TPU và GPU, hướng đến hỗ trợ đa đám mây. MidJourney ban đầu sử dụng Google Cloud TPU để huấn luyện các mô hình tạo ảnh.

Google/DeepMind đương nhiên lấy TPU làm trung tâm. Gemini được huấn luyện trên TPU v5p, PaLM 2 trên TPU v4 Pod, và AlphaFold cũng được thực hiện trên TPU. Tuy nhiên, Google Cloud cũng cung cấp NVIDIA H100/A100 cho khách hàng, thể hiện thái độ "cung cấp lựa chọn". Phần lớn khối lượng công việc suy luận AI nội bộ của Google — Tìm kiếm, YouTube, Gmail, Google Dịch, Gemini — được cho là đang chạy trên TPU.

Góc nhìn từ các VC Silicon Valley — Tính bền vững của sự thống trị NVIDIA và các kịch bản thay thế

Các VC ở Silicon Valley nhìn nhận cuộc tranh luận GPU vs TPU không phải là "so sánh hiệu năng chip" mà là "rủi ro cấu trúc của ngành AI".

Sequoia Capital trong báo cáo "AI's $600B Question" công bố đầu năm 2024 đã chỉ ra thực tế rằng doanh thu thực tế của các công ty AI thấp hơn nhiều so với doanh thu GPU của NVIDIA vượt 50 tỷ USD. Báo cáo gợi ý khả năng đầu tư vào GPU/compute đang quá mức và làm nổi bật tầm quan trọng của việc tối ưu hóa chi phí thông qua các giải pháp thay thế (TPU, chip tùy chỉnh).

a16z (Andreessen Horowitz) với Martin Casado và Matt Bornstein trong "Who Owns the Generative AI Platform?" (2023) — phân tích cấu trúc chi phí của các công ty AI — đã chỉ ra rằng "biên lợi nhuận gộp của các startup AI thấp hơn các công ty SaaS truyền thống do chi phí GPU". a16z xem tầng hạ tầng AI (GPU/TPU) là "thuế" do NVIDIA/Google kiểm soát, cho rằng cơ hội đầu tư lớn nhất nằm ở tầng ứng dụng, đồng thời chú ý đến "rủi ro phụ thuộc NVIDIA" và sự trỗi dậy của silicon tùy chỉnh. Matt Bornstein dự đoán "2026 là năm của AI agent", nhưng cũng chỉ ra rằng việc tối ưu hóa chi phí hạ tầng nền tảng sẽ quyết định sự sống còn của các startup.

Hành động đầu tư của các VC phản ánh nhận thức này. Như một "giải pháp thay thế" cho sự thống trị của NVIDIA, các khoản đầu tư lớn đang hướng đến các startup chip AI sau: Cerebras Systems (tổng vốn huy động khoảng 700 triệu USD, chip wafer-scale WSE-3), Groq (tổng vốn huy động khoảng 640 triệu USD, LPU chuyên biệt cho suy luận), SambaNova Systems (tổng vốn huy động khoảng 1,1 tỷ USD, RDU), Tenstorrent (tổng vốn huy động khoảng 300 triệu USD, nền tảng RISC-V do Jim Keller dẫn dắt), Etched (tổng vốn huy động khoảng 120 triệu USD, ASIC chuyên biệt cho Transformer "Sohu").

Nhận thức chung trong giới VC được phân tích theo 3 trục thời gian. Ngắn hạn (1–3 năm): sự thống trị của NVIDIA không thể bị lung lay — hào CUDA vững chắc, tốc độ cập nhật thế hệ Blackwell/Rubin nhanh. Trung hạn (3–5 năm): thị phần silicon tùy chỉnh (bao gồm TPU) sẽ mở rộng, đặc biệt rõ nét trong thị trường suy luận. Dài hạn (trên 5 năm): môi trường heterogeneous (kết hợp GPU + TPU + ASIC tùy chỉnh) được dự báo sẽ trở thành tiêu chuẩn.

Goldman Sachs trong báo cáo "AI Infrastructure: The Next $1 Trillion Opportunity" (2024) xem NVIDIA là người chiến thắng ngắn hạn, nhưng định vị Google TPU và AWS Trainium là "các giải pháp thay thế có triển vọng nhất". Morgan Stanley phân tích "hào của NVIDIA không nằm ở phần cứng mà là hệ sinh thái CUDA", còn Stacy Rasgon của Bernstein Research (nhà phân tích nổi tiếng nhất về NVIDIA) nhận định "khả năng cạnh tranh của NVIDIA sẽ duy trì trong vài năm tới", nhưng cũng chỉ ra khả năng biên lợi nhuận gộp bị ảnh hưởng trong dài hạn do sự trỗi dậy của ASIC/chip tùy chỉnh.

Tranh luận của những người nổi tiếng — Phe GPU vs Phe TPU

Cuộc tranh luận GPU vs TPU vẫn còn gây chia rẽ ngay cả giữa những nhân vật nổi bật tại Thung lũng Silicon.

Jensen Huang (CEO NVIDIA) luôn nhất quán lập luận rằng tính đa năng của GPU mang lại lợi thế lâu dài. "Các chip chuyên biệt cho một workload cụ thể có thể hiệu quả hơn tạm thời, nhưng các mô hình AI đang tiến hóa rất nhanh. Nền tảng GPU đa năng sẽ có lợi thế hơn về lâu dài." Về CUDA, ông nói: "Hàng triệu bản cài đặt là một hệ sinh thái được xây dựng trong hơn 15 năm, không thể sao chép trong một sớm một chiều." Tại GTC 2024, ông tuyên bố "Cuộc Cách mạng Công nghiệp tiếp theo đã bắt đầu." Lộ trình của NVIDIA công bố chu kỳ cập nhật thế hệ mỗi năm (Blackwell → Rubin → Vera), tăng tốc so với chu kỳ 2 năm trước đây.

David Patterson (Giáo sư danh dự UC Berkeley, Google Distinguished Engineer) là người biện hộ mạnh mẽ nhất cho phía TPU. Là cha đẻ của RISC và RAID, tên ông đã được khắc vào lịch sử thiết kế bán dẫn. Trong bài báo năm 2020 "A Domain-Specific Supercomputer for Training Deep Neural Networks", ông đã chứng minh tính ưu việt của TPU, và vào năm 2023, ông cùng Jeff Dean công bố bài báo ISCA trình bày chi tiết kiến trúc TPU v4. Ông khẳng định: "Kiến trúc chuyên dụng theo lĩnh vực hiệu quả hơn bộ xử lý đa năng hàng bậc độ lớn."

Jeff Dean (Google Chief Scientist) là người tiên phong thúc đẩy sự phát triển của TPU. Ông chia sẻ: "Triết lý thiết kế của TPU là tận dụng bản chất cốt lõi của tính toán mạng nơ-ron — hy sinh một phần độ chính xác để tối đa hóa thông lượng." Là người tin tưởng vào quy luật mở rộng quy mô, ông định vị: "Tăng lượng tính toán là chìa khóa cải thiện hiệu suất AI. TPU là công cụ để hiện thực hóa việc mở rộng quy mô đó một cách kinh tế."

Yann LeCun (Meta Chief AI Scientist, Giáo sư NYU) ủng hộ GPU nhưng có quan điểm riêng. Toàn bộ nghiên cứu AI quy mô lớn của Meta (bao gồm dòng LLaMA) đều được thực hiện trên GPU NVIDIA. Ông thừa nhận "GPU đa năng tiến hóa quá nhanh, khó để ASIC theo kịp", nhưng về lâu dài vẫn công nhận tầm quan trọng của chip chuyên dụng theo lĩnh vực. Là người ủng hộ mã nguồn mở, ông lo ngại về sự phụ thuộc quá mức vào một nhà cung cấp duy nhất.

Jim Keller (CEO Tenstorrent, người thiết kế AMD Zen / Apple A-series / Tesla Dojo) trực tiếp thách thức NVIDIA. "Hào của NVIDIA không sâu như người ta nghĩ. Nếu có giải pháp thay thế tốt, sự chuyển đổi sẽ xảy ra." Ông thúc đẩy kiến trúc mở dựa trên RISC-V và khẳng định: "Mô hình GPU + CUDA không phải là tối ưu."

Elon Musk đã đưa ra kết luận trên thực tế. Dù Tesla phát triển chip AI riêng là Dojo, cuối cùng xAI vẫn mua 100.000 chiếc NVIDIA H100. Câu nói "GPU là vàng mới" của ông là minh chứng súc tích nhất cho thực tế thống trị của NVIDIA.

Andrew Ng (Giáo sư Stanford, đồng sáng lập Coursera) là người theo trường phái trung dung thực dụng. Là người tiên phong trong nghiên cứu deep learning dựa trên GPU giai đoạn đầu, ông cho biết: "Quan trọng hơn là bạn xây dựng gì, chứ không phải dùng chip nào. Tuy nhiên, ở thời điểm hiện tại, hệ sinh thái GPU + CUDA có năng suất cao nhất."

GPU vs TPU qua con số — Dữ liệu thị trường và xu hướng đầu tư

Những con số trong thị trường chip AI phản ánh cả sự thống trị áp đảo của NVIDIA lẫn sự trỗi dậy của các thế lực đang thách thức vị trí đó.

Doanh thu trung tâm dữ liệu của NVIDIA đã tăng từ 15 tỷ đô la (khoảng 2.250 tỷ yên) trong năm tài chính 2023 (kết thúc tháng 1/2023) lên 47,5 tỷ đô la (khoảng 7.125 tỷ yên) trong năm tài chính 2024, rồi lên 115,2 tỷ đô la (khoảng 17.280 tỷ yên) trong năm tài chính 2025 — tức là tăng gấp khoảng 8 lần chỉ trong vòng 2 năm. Công ty ước tính nắm giữ 70–95% thị phần trong thị trường bộ tăng tốc huấn luyện AI. a16z mô tả quy mô doanh thu này là "thuế của ngành công nghiệp AI".

AMD đang truy đuổi với MI300X và đặt mục tiêu doanh thu bộ tăng tốc AI năm 2024 vào khoảng 5 tỷ đô la (khoảng 750 tỷ yên). Tuy nhiên, con số này chưa bằng một phần mười quy mô của NVIDIA, và thị phần chỉ dừng lại ở mức khoảng 5–15%.

Doanh thu trực tiếp của Google Cloud TPU không được công bố. Alphabet báo cáo doanh thu cả năm 2024 của toàn bộ Google Cloud đạt khoảng 43 tỷ đô la (khoảng 6.450 tỷ yên, tăng 28% so với năm trước), đồng thời đạt lợi nhuận hoạt động dương. Số lượng công ty sử dụng TPU được cho là hàng trăm công ty trở lên, nhưng việc sử dụng nội bộ của Google chiếm phần lớn áp đảo. Phần lớn khối lượng suy luận của Search, YouTube, Gmail, Google Dịch và Gemini đều chạy trên TPU.

Nhiều công ty nghiên cứu dự báo thị trường chip AI toàn cầu sẽ đạt khoảng 70–80 tỷ đô la (khoảng 10,5 nghìn tỷ đến 12 nghìn tỷ yên) vào năm 2024, và đạt 300–400 tỷ đô la (khoảng 45–60 nghìn tỷ yên) vào năm 2030. Đây là mức tăng trưởng hàng năm 20–30%.

Chi tiêu vốn của các nhà cung cấp đám mây cũng đang bùng nổ. Sundar Pichai (CEO của Google/Alphabet) đã công bố kế hoạch đầu tư vốn với quy mô 75 tỷ đô la mỗi năm (khoảng 11.250 tỷ yên). Microsoft và Amazon cũng đang lên kế hoạch đầu tư ở quy mô tương tự. NVIDIA là người hưởng lợi lớn nhất trong "cuộc đua vũ trang hạ tầng AI" này, nhưng đầu tư vào phát triển chip tùy chỉnh của mỗi công ty cũng đang tăng tốc.

Sự leo thang nhanh chóng của chi phí huấn luyện AI càng làm nổi bật tầm quan trọng của hiệu quả chi phí. Chi phí huấn luyện GPT-3 ước tính là 4,6 triệu đô la (năm 2020), GPT-4 ước tính vượt 100 triệu đô la (năm 2023), và các mô hình thế hệ tiếp theo được ước tính ở mức 500 triệu đến 1 tỷ đô la. Ở quy mô này, mức tiết kiệm 30–50% mà lợi thế chi phí của TPU mang lại sẽ tạo ra khoản chênh lệch từ 150 triệu đến 500 triệu đô la.

Làn sóng silicon tùy chỉnh — Con đường thứ ba ngoài GPU và TPU

Ngoài sự đối lập giữa GPU và TPU, một xu hướng thứ ba mang tên "silicon tùy chỉnh" đang ngày càng nổi lên mạnh mẽ.

Amazon/AWS đã tung ra Trainium 2 (2024) nhằm giảm sự phụ thuộc vào NVIDIA. Công ty đang xây dựng cụm Trainium quy mô lớn mang tên "Project Rainier" để huấn luyện các mô hình thế hệ tiếp theo của Anthropic. Inferentia 2 chuyên dụng cho suy luận cũng đang được triển khai.

Microsoft ra mắt chip AI đầu tiên Maia 100 vào tháng 11 năm 2023. Kết hợp với CPU Arm Cobalt để triển khai trên Azure, tuy nhiên quy mô vẫn còn hạn chế và quan hệ hợp tác với NVIDIA vẫn là trục chính trong thời gian tới.

Meta đạt được cải thiện hiệu suất suy luận gấp 3 lần với MTIA v2. Tuy nhiên, việc huấn luyện vẫn tập trung vào GPU NVIDIA, còn MTIA chuyên dụng cho tối ưu hóa chi phí suy luận.

Apple thực hiện suy luận AI trên thiết bị bằng chip Apple Silicon (dòng M) độc quyền, nhưng vẫn sử dụng GPU NVIDIA cho việc huấn luyện tại trung tâm dữ liệu.

Bên cạnh những động thái này, các startup vẫn tiếp tục thách thức. Cerebras (chip wafer-scale), Groq (LPU chuyên suy luận, độ trễ cực thấp), Tenstorrent (nền tảng RISC-V, do Jim Keller dẫn đầu), Etched (ASIC chuyên biệt cho Transformer)... mỗi đơn vị tiếp cận theo hướng khác nhau để thách thức vị thế thống trị của NVIDIA.

Báo cáo AI Index Report 2024 của Stanford HAI (Human-Centered AI Institute) cảnh báo rằng chi phí tính toán đang trở thành nút thắt cổ chai trong nghiên cứu AI, và sự chênh lệch trong khả năng tiếp cận GPU/TPU đang cản trở "quá trình dân chủ hóa nghiên cứu AI".

Xu hướng tương lai — Hướng tới một tương lai dị cấu (heterogeneous)

Cuộc cạnh tranh GPU vs TPU, xét đến cùng, không phải là "bên nào sẽ thắng", mà kịch bản có khả năng xảy ra nhất là sự hội tụ về môi trường heterogeneous (hỗn hợp đa dạng chip).

Lộ trình của NVIDIA đang tăng tốc. Blackwell (2024~2025) → Rubin (2026, HBM4, NVLink thế hệ mới) → Vera (2028), hãng đã tuyên bố chuyển dịch từ chu kỳ 2 năm sang chu kỳ 1 năm. Không chỉ cải thiện hiệu suất của từng chip đơn lẻ, quá trình tích hợp thành nền tảng thống nhất bao gồm NVLink, NVSwitch, Spectrum-X Ethernet và phần mềm (NIM, NEMO) cũng đang được đẩy mạnh.

Google cũng tiếp tục cập nhật thế hệ mới. Thế hệ tiếp theo của Trillium (v6) dự kiến được ra mắt theo chu kỳ 18~24 tháng. Việc tích hợp với CPU độc quyền "Axion" (nền tảng Arm, công bố năm 2024) cũng tiến triển, với tầm nhìn về "siêu máy tính AI" kết hợp TPU+GPU+CPU. Tối ưu hóa suy luận là chủ đề đặc biệt quan trọng đối với việc triển khai quy mô lớn Gemini.

Về phía phần mềm, xu hướng nâng cao khả năng di chuyển giữa các chip đang tăng tốc. Việc chuẩn hóa các trình biên dịch ML như MLIR, OpenXLA đang được thúc đẩy, và Triton (phát triển bởi OpenAI/Meta) cũng đang tìm kiếm mở rộng sang các backend ngoài GPU. Khi các công nghệ này trưởng thành, rào cản lock-in của CUDA sẽ dần dần giảm xuống.

Tổng hợp dự báo của các nhà phân tích, trong giai đoạn 2025~2027, NVIDIA sẽ duy trì thị phần 60~80% trên thị trường huấn luyện, nhưng giảm xuống 50~60% trên thị trường suy luận. Trong giai đoạn 2028~2030, chip tùy chỉnh (TPU, Trainium, ASIC của các công ty) có khả năng đạt 30~40% trên thị trường huấn luyện. Thị trường suy luận có độ nhạy cảm về chi phí cao, nên đây là lĩnh vực mà TPU/chip tùy chỉnh thâm nhập nhanh nhất.

Nếu tầm nhìn của Jensen Huang về "mọi doanh nghiệp đều trở thành nhà máy AI" được hiện thực hóa, thì thiết bị của những nhà máy đó sẽ không chỉ là GPU NVIDIA mà sẽ là cấu hình đa dạng với sự pha trộn của Google TPU, AWS Trainium và ASIC tùy chỉnh của nhiều công ty khác nhau. Vấn đề không phải là kết quả thắng thua của "GPU vs TPU", mà là thời đại mà mỗi doanh nghiệp lựa chọn chip tối ưu tùy theo workload, quy mô và cơ cấu chi phí đã đến.

Tác động đến ngành

Thứ nhất, sự thống trị GPU của NVIDIA khó có thể bị lung lay trong ngắn hạn, nhưng cơ cấu chi phí mang tên "thuế NVIDIA" có thể hạn chế sự tăng trưởng của toàn ngành AI. Con số doanh thu trung tâm dữ liệu 115,2 tỷ USD (FY2025) cho thấy quy mô chi phí mà ngành AI phải trả cho "nhà máy tính toán". "Khoảng cách giữa đầu tư GPU và doanh thu" mà Sequoia Capital chỉ ra đang tạo ra áp lực dịch chuyển cơ cấu sang các giải pháp thay thế tối ưu hóa chi phí — TPU, Trainium, ASIC tùy chỉnh.

Thứ hai, tỷ lệ hiệu suất chi phí của TPU là lợi thế không thể bỏ qua, đặc biệt đối với các startup AI coi trọng hiệu quả vốn. Mức giảm chi phí huấn luyện 30~50% ở quy mô các mô hình thế hệ tiếp theo (chi phí huấn luyện ước tính 500 triệu~1 tỷ USD) sẽ tạo ra sự chênh lệch hàng trăm triệu USD. Việc các công ty như Anthropic, Character.AI và Cohere lựa chọn TPU cho thấy lợi thế chi phí đã bước vào giai đoạn "thực tiễn" chứ không còn là "lý thuyết".

Thứ ba, hệ sinh thái CUDA vừa là điểm mạnh lớn nhất của NVIDIA, vừa là nút thắt cổ chai của toàn ngành AI. Nền tảng hơn 4 triệu nhà phát triển khiến chi phí chuyển đổi cực kỳ cao, nhưng với sự phát triển của các công nghệ compiler xuyên chip như MLIR/OpenXLA/Triton, rào cản này dự kiến sẽ giảm dần trong trung hạn. Liệu nhận định của Jim Keller rằng "con hào của NVIDIA không sâu như người ta nghĩ" có trở thành hiện thực hay không phụ thuộc vào mức độ trưởng thành của các công nghệ phần mềm này.

Thứ tư, thị trường bán dẫn AI đang chuyển dịch từ thế đối lập nhị phân GPU vs TPU sang môi trường heterogeneous (đa dạng chip hỗn hợp). Với sự tham gia của Amazon Trainium, Microsoft Maia, Meta MTIA, cùng các startup như Cerebras, Groq, Tenstorrent và Etched, doanh nghiệp đang bị buộc phải lựa chọn chip phù hợp theo khối lượng công việc, quy mô và cơ cấu chi phí. Trong thị trường huấn luyện, ưu thế GPU của NVIDIA sẽ tiếp tục duy trì trong thời gian tới, nhưng trong thị trường suy luận (inference), TPU/chip tùy chỉnh đang thâm nhập với tốc độ nhanh nhất.


Tài liệu tham khảo: NVIDIA FY2025 Annual Report & Earnings (tháng 1/2025), NVIDIA GTC 2024 Keynote (Jensen Huang), Google Cloud Next 2024 (công bố Trillium/TPU v6), Google ISCA 2023 TPU v4 Paper (Jeff Dean, David Patterson et al.), Sequoia Capital "AI's $600B Question" (2024), a16z "Who Owns the Generative AI Platform?" (Martin Casado, Matt Bornstein, 2023), Goldman Sachs "AI Infrastructure: The Next $1 Trillion Opportunity" (2024), Morgan Stanley NVIDIA Coverage Reports, Bernstein Research (Stacy Rasgon) Semiconductor Analysis, Stanford HAI AI Index Report 2024, MLCommons MLPerf Training v4.0 Results (2024), Google Cloud TPU Pricing & Documentation, AWS P5/Trainium Pricing, Azure ND H100 Pricing, David Patterson "A Domain-Specific Supercomputer for Training Deep Neural Networks" (Communications of the ACM, 2020), Anthropic-Google Cloud Partnership Announcement (2023), Character.AI TPU Infrastructure Reports, Elon Musk xAI Colossus Announcements, Sam Altman AI Chip Fundraising Reports (Bloomberg, 2024), Jim Keller Tenstorrent Interviews & RISC-V Vision, Yann LeCun AI Hardware Commentary, Andrew Ng GPU-based DL Research, Cerebras/Groq/SambaNova/Etched Funding Rounds (TechCrunch, The Information), Google Axion CPU Announcement (2024), NVIDIA Rubin/Vera Roadmap (GTC 2024), The Information "NVIDIA Tax" Coverage, IEEE Spectrum TPU Architecture Analysis, Nikkei Cross-Tech NVIDIA/AI Semiconductor Special Feature