NVIDIA GPU vs Google TPU

支撑AI产业基础设施的两大巨柱——NVIDIA的GPU与Google的TPU——在2026年步入了新的竞争阶段。NVIDIA数据中心营收在2025财年（2025年1月期）达到1,152亿美元（约17.28万亿日元），Blackwell世代（B200/GB200）已全面进入出货阶段，在AI训练加速器市场占据估计70至95%的份额，堪称压倒性的市场主导者。另一方面，Google的TPU（张量处理器）自2016年v1发布以来历经十年演进，已迭代至第六代"Trillium"。Google宣称，TPU v5e与同等性能的GPU实例相比，训练成本降低50%，推理成本效率提升最高达2.5倍。Anthropic（Claude）、Character.AI、Cohere、MidJourney等AI初创企业着眼于TPU的成本优势纷纷采用，而OpenAI、Meta、xAI则坚持全面押注NVIDIA GPU的战略。Sequoia Capital在《AI's $600B Question》报告中指出了对GPU过度投资的风险，a16z则将摆脱对NVIDIA依赖列为其投资组合企业的核心课题。Jim Keller（Tenstorrent CEO、AMD Zen/Apple A系列架构设计者）直言"NVIDIA的护城河并没有人们想象的那么深"，David Patterson（UC伯克利荣誉教授、RISC发明者、Google杰出工程师）则从理论层面论证了以TPU为代表的领域专用架构所具备的结构性优势。摩根士丹利维持对NVIDIA近期优势的判断，而高盛则预测"定制芯片将在中期内扩大市场份额"。本文将对GPU与TPU的历史沿革、技术特性、成本性能对比、硅谷风险投资的投资逻辑、业界知名人士的观点以及未来趋势进行全面深入的梳理与考察。

GPU的起源——从游戏到AI霸主

NVIDIA的GPU成为AI芯片代名词的历程，由一位企业家的远见卓识与数个历史性转折点共同塑造。

1993年，Jensen Huang、Chris Malachowsky和Curtis Priem在加利福尼亚州圣克拉拉创立了NVIDIA。公司最初的业务是面向PC游戏的图形芯片。1999年，NVIDIA发布GeForce 256，并率先提出"GPU（图形处理单元）"这一术语。2000年代初，公司与ATI（后被AMD收购）在游戏GPU市场展开了激烈的市场份额争夺。

第一个转折点是2006年CUDA（统一计算设备架构）的发布。CUDA将原本专为图形渲染设计的GPU数千个核心，以可用于通用并行计算的编程模型形式开放出来。开发者得以通过类C语言的代码充分利用GPU的并行性，科学计算和物理仿真领域的研究人员纷纷趋之若鹜。彼时，没有人预料到CUDA会成为AI产业的"护城河（moat）"。

第二个转折点是2012年的"AlexNet冲击"。Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在ImageNet竞赛中，使用两块GTX 580 GPU训练的卷积神经网络"AlexNet"大获全胜。这一成果将图像识别错误率从26%大幅降至16%，成为"深度学习革命"的起点。Jensen Huang事后将这一时刻称为"大爆炸"，并由此决定将AI定为NVIDIA未来的核心业务。

此后，NVIDIA加速推进面向数据中心GPU的迭代升级。2017年Volta架构的Tesla V100首次搭载专为AI运算设计的Tensor Core，通过混合精度运算（FP16/FP32）实现大幅提速。2020年Ampere架构的A100达到312 TFLOPS（TF32），叠加新冠疫情期间AI需求的急剧增长，数据中心营收随之飞速攀升。2022年Hopper架构的H100搭载Transformer Engine，支持FP8运算，成为GPT系大规模模型训练的"标准"配置。2024年，NVIDIA发布Blackwell架构B200/GB200，该芯片将两个裸片集成于单一封装，拥有2080亿个晶体管，支持FP4运算，峰值性能达20 PFLOPS。GB200 NVL72（72块GPU液冷机架）号称推理性能较上一代提升30倍。

2025财年（截至2025年1月），NVIDIA营收达1305亿美元（约合19.575万亿日元），同比增长114%。其中数据中心业务营收1152亿美元（约合17.28万亿日元），占总营收的88%。公司市值突破3万亿美元（约合450万亿日元），跻身全球最具价值企业之列。

TPU的起源——谷歌自研芯片的原因

谷歌开发TPU的动机，并非出于纯粹的技术野心，而是经济上的必然。

2010年代初，深度学习在谷歌内部的应用急剧扩张。语音识别、谷歌翻译、搜索排名、YouTube推荐——神经网络被嵌入到各类服务之中。谷歌内部估算，"如果所有用户每天仅使用3分钟语音搜索，当时的数据中心容量就需要翻倍。"持续大量采购英伟达GPU，无论从成本还是供应角度来看，都难以为继。

谷歌对这一挑战的回应，是领域专用架构（DSA）——一种专为神经网络计算设计的自研芯片。在Jeff Dean（时任Google Brain负责人）与David Patterson（加州大学伯克利分校荣誉教授、RISC发明者、2016年起任谷歌杰出工程师）等人的主导下，TPU v1于2015年在谷歌内部正式投入运行。

TPU v1是一款专用于推理的8位整数运算芯片，性能达92 TOPS（INT8）。2016年3月，DeepMind的AlphaGo击败李世石时，推理环节正是使用了TPU v1，由此声名大噪。

TPU的设计理念与GPU有着根本性的不同。GPU追求通用并行计算，而TPU则采用脉动阵列（Systolic Array）结构，专为矩阵乘法（GEMM）优化。通过最大化数据复用，提升每瓦性能。此外，谷歌率先引入的BFloat16（Brain Float 16）格式，以略微牺牲精度为代价，大幅提升了吞吐量。BFloat16此后被英伟达GPU（V100及以后）和英特尔CPU相继采用，成为行业标准。

TPU持续稳步迭代。2017年的v2实现了训练支持与HBM搭载，并开始在谷歌云上对外开放；2018年的v3引入液冷技术；2021年的v4搭载SparseCore，并通过光电路交换机（OCS）构建4,096芯片Pod，突破1 EXAFLOPS。2023年推出v5e（侧重成本效率）与v5p（侧重性能，8,960芯片Pod）。2024年，第六代"Trillium"正式发布，相比v5e，训练性能提升4.7倍，能效提升67%。

技术上的擅长与不擅长——通用性 vs 专项效率

整理GPU与TPU的技术特性，两者设计理念的差异便清晰可见。

NVIDIA GPU的优势，首先在于通用性。不仅支持AI训练与推理，还能应对科学计算、渲染、仿真、加密货币挖矿等各类并行计算工作负载。其次是CUDA生态系统的规模。估计拥有超过400万名CUDA开发者，以及cuDNN、TensorRT、NCCL、Triton等优化库群，PyTorch、TensorFlow、JAX三大框架均以一等公民级别支持CUDA优化。这一历经15年以上构建的软件基础，"绝非一朝一夕可以复制"（Jensen Huang）。第三，NVLink/NVSwitch实现的GPU间高带宽通信（H100双向900 GB/s），以及通过收购Mellanox（2019年，69亿美元）整合InfiniBand网络，从而实现了从芯片到集群的端到端优化。

另一方面，GPU的弱点同样明确。H100功耗达700W，B200超过1,000W，数据中心的电力与冷却成本极为庞大。H100单卡售价约25,000至40,000美元，DGX H100系统（8块GPU）超过20万美元。2023至2024年间陷入严重供货短缺，交货周期长达6至12个月。此外，对CUDA的依赖既是"护城河"，也是"锁定"。迁移至其他硬件的成本极高，AMD的ROCm尚未赶上CUDA的成熟度。

TPU的优势首先在于性价比（详见下章）。专为矩阵运算设计，每瓦性能更高。Trillium相较v5e实现了67%的能效提升。ICI（芯片间互联）实现的芯片直连，达到了与NVLink相当的低延迟、高带宽，且已在数千芯片的Pod配置中得到验证。与Google自研的JAX框架高度契合，Gemini的训练正是采用JAX+TPU的组合完成的。

TPU的弱点在于：仅限Google Cloud使用（不可本地购买）、生态系统相较CUDA更小（PyTorch的TPU支持通常落后于CUDA版本），以及存在TPU特有优化（数据流水线设计、分片策略）的学习曲线。

在MLPerf基准测试（由MLCommons主办，AI性能的行业标准）中，NVIDIA凭借Blackwell在几乎所有类别中录得最高性能，而Google TPU v5p也在多个类别中取得顶级成绩。但需注意，MLPerf是竞逐"最高性能"的基准测试，并不衡量成本效率。TPU最大优势——性价比——在结构上并未体现于MLPerf之中。

TPU的性价比——值得关注的结构性优势

在GPU与TPU的争论中，最容易被忽视却最为关键的论点是性价比。

谷歌在每一代TPU发布时，始终强调其成本优势。TPU v5e发布时（2023年8月）宣称"训练成本较v4降低一半，推理成本降至约三分之一"；v5p发布时（2023年12月）宣称"在大规模模型训练上具有优于H100的性价比"；Trillium发布时（2024年）宣称"每美元性能较v5e提升4.7倍"。

云端价格的直接比较因配置和地区而有所波动，但粗略估算可呈现出如下格局：在Google Cloud上，TPU v5e按需计费约为每芯片1.20美元/时，三年承诺使用可降至约0.50美元/时；而同一Google Cloud上的H100（A3实例）约为每GPU 3.90美元/时；AWS的H100（p5实例）约为每GPU 12.29美元/时；CoreWeave、Lambda等GPU云服务商约为2.00～2.50美元/时。

在LLM训练成本比较方面，训练LLaMA 2 70B规模的模型，若使用2,048块H100（以AWS/Azure为例）约需200～300万美元（约3亿～4.5亿日元），而据谷歌声称，使用同等规模的TPU v5p配置可节省30～50%的成本，即约100～200万美元（约1.5亿～3亿日元）。在每个token的推理成本方面，谷歌声称TPU v5e相较H100最多可实现2.5倍的成本效率提升。

这一成本优势的形成有三个结构性原因：第一，TPU凭借专用领域设计，在矩阵运算的每瓦效率上优于GPU，牺牲通用性所换来的效率直接体现在成本上；第二，谷歌对TPU的设计、制造（委托台积电）和运营实施垂直整合，不存在作为第三方购买英伟达GPU时所产生的中间利润，谷歌内部使用TPU的成本很可能远低于对外客户的报价；第三，谷歌的数据中心实现了PUE（电能利用效率）约1.1的世界顶级能源效率，有效压低了电力和冷却成本。

不过，成本比较存在几个重要注意事项：直接比较的困难性（云端计费体系的差异）、优化程度的影响（若代码未分别针对TPU/GPU进行优化，比较便失去公平性），以及隐性成本（数据传输费、工程师时间、TPU迁移的学习成本）均需纳入考量。此外，由于TPU仅限于Google Cloud，对于倾向于多云战略或本地部署运营的企业而言，TPU并非可选项。

考虑到AI训练成本的急剧攀升——GPT-3（估计460万美元，2020年）→ GPT-4（估计超1亿美元，2023年）→ 下一代模型（估计5～10亿美元）——性价比的差异将带来数千万美元量级的影响。这对于尤其注重资金效率的初创企业而言，构成了选择TPU的强有力经济动机。

企业的基础设施选择——为何产生分歧

AI开发的基础设施选择，因企业的战略、合作关系及技术背景不同而存在显著差异。

OpenAI与Microsoft Azure建立了战略合作关系，GPT-4/o的训练在Azure上的NVIDIA GPU（估计数万至10万张H100）上进行。CEO Sam Altman表示"从长远来看，需要针对AI优化的多样化芯片"，同时据报道（Bloomberg），他在2024年初曾构想筹集5至7万亿美元用于自研AI芯片制造。尽管这一构想本身未能实现，但充分体现了对GPU供应的深切危机感。

Meta明确采取NVIDIA GPU唯一化战略。Mark Zuckerberg宣布Meta将在2024年底前确保约35万张H100，LLaMA 3.1 405B估计使用超过16,000张H100进行训练。Meta正在开发用于推理的定制芯片MTIA（v2推理性能提升3倍），但训练仍以NVIDIA GPU为核心。对于坚持开源主义的Meta而言，CUDA生态系统与PyTorch的高度兼容性是选择GPU的最大理由。

xAI（Elon Musk）则走得更为极端。其在田纳西州孟菲斯建设了全球最大规模的单一GPU集群"Colossus"，部署了10万张H100。Musk公开表示"GPU是新的黄金"、"无法充分获取GPU的企业将无法参与AI竞争"。尽管他在Tesla开发了自研AI芯片Dojo（D1），最终还是大幅增加了对NVIDIA GPU的投资，并于2024年实际上缩减了Dojo计划。这是一个象征性案例，揭示了自研芯片开发的艰难程度。

另一方面，选择TPU的初创企业也在稳步增加。Anthropic依托Google超过20亿美元的投资（2023年），在Google Cloud TPU上进行Claude的训练，同时借助Amazon 40亿美元的投资，并用AWS上的GPU/Trainium，采取混合战略。Character.AI（由Google Brain出身的Noam Shazeer和Daniel De Freitas创立）使用TPU v4/v5e处理每日数百万用户的对话，将大规模推理的成本效率作为选择的主要因素。Cohere同时使用TPU和GPU，实现多云兼容。MidJourney早期利用Google Cloud TPU训练图像生成模型。

Google/DeepMind自身自然以TPU为核心。Gemini在TPU v5p上训练，PaLM 2在TPU v4 Pod上训练，AlphaFold也在TPU上运行。不过，Google Cloud也为客户提供NVIDIA H100/A100，展示了"提供选择"的姿态。据悉，Google内部大部分AI推理工作负载——搜索、YouTube、Gmail、Google翻译、Gemini——均运行在TPU之上。

硅谷风投视角——NVIDIA主导地位的持续性与替代情景

硅谷的风险投资人将GPU与TPU之争视为"AI产业的结构性风险"，而非单纯的"芯片性能比较"。

Sequoia Capital在2024年上半年发布的报告《AI's $600B Question》中指出，英伟达GPU销售额超过500亿美元，而AI企业的实际收益却远低于此。该报告暗示GPU/算力投资可能存在过热现象，并凸显了通过替代方案（TPU、定制芯片）优化成本的重要性。

a16z（Andreessen Horowitz）的Martin Casado与Matt Bornstein在2023年发布的《Who Owns the Generative AI Platform?》中分析了AI企业的成本结构，指出"AI初创企业的毛利率因GPU成本而低于传统SaaS企业"。a16z将AI基础设施层（GPU/TPU）视为由英伟达/谷歌掌控的"税收"，认为VC投资的最大机遇在于应用层，同时也关注"依赖英伟达的风险"以及定制硅芯片的崛起。Matt Bornstein预测"2026年将是AI智能体之年"，但同时指出基础算力成本的优化将决定初创企业的生死存亡。

VC的投资行为印证了这一认知。作为对英伟达垄断地位的"替代"选项，大规模投资正流向以下AI芯片初创企业：Cerebras Systems（累计融资约7亿美元，约合1,050亿日元，晶圆级芯片WSE-3）、Groq（累计融资约6.4亿美元，约合960亿日元，推理专用LPU）、SambaNova Systems（累计融资约11亿美元，约合1,650亿日元，RDU）、Tenstorrent（累计融资约3亿美元，约合450亿日元，由Jim Keller主导的基于RISC-V架构）、Etched（累计融资约1.2亿美元，约合180亿日元，Transformer专用ASIC"Sohu"）。

VC界的普遍共识可从三个时间维度加以梳理：短期（1至3年），英伟达的主导地位不可撼动——CUDA护城河坚固，Blackwell/Rubin架构迭代迅速；中期（3至5年），定制硅芯片（含TPU）市场份额将持续扩大，尤其在推理市场表现突出；长期（5年以上），异构计算（GPU+TPU+定制ASIC混合）环境将成为行业标准。

高盛在2024年发布的《AI Infrastructure: The Next $1 Trillion Opportunity》报告中，将英伟达定位为短期赢家，同时将谷歌TPU与AWS Trainium列为"最具潜力的替代方案"。摩根士丹利分析认为"英伟达的护城河在于CUDA生态系统而非硬件本身"；Bernstein Research的Stacy Rasgon——英伟达最知名的分析师——在肯定"英伟达竞争力将在未来数年持续"的同时，也指出从长远来看，ASIC/定制芯片的崛起可能对其毛利率造成压力。

名人争论——GPU派 vs TPU派

GPU与TPU之争，即便在硅谷的知名人士之间也存在分歧。

Jensen Huang（英伟达CEO）一贯主张GPU的通用性将带来长期优势。"针对特定工作负载的芯片或许暂时效率更高，但AI模型正在迅速演进。具备通用性的GPU平台从长远来看更具优势。"谈及CUDA，他表示"数百万的安装基础是历经15年以上构建的生态系统，绝非一蹴而就能够复制的。"在GTC 2024上，他宣称"下一场工业革命已经开始。"英伟达的路线图宣布了一年一代的更新周期（Blackwell→Rubin→Vera），较以往两年一代的周期大幅提速。

David Patterson（UC伯克利荣誉教授、谷歌杰出工程师）是TPU阵营最有力的论战者。作为RISC与RAID的发明者，他在半导体设计史上留下了深刻印记。他在2020年的论文《A Domain-Specific Supercomputer for Training Deep Neural Networks》中论证了TPU的优越性，并于2023年与Jeff Dean联合发表ISCA论文，公开了TPU v4的架构细节。他主张："领域专用架构比通用处理器效率高出数个量级。"

Jeff Dean（谷歌首席科学家）是TPU开发的核心推动者。他表示："TPU的设计哲学在于充分利用神经网络计算的本质特性——即便牺牲一定精度，也要最大化吞吐量。"作为扩展定律的信奉者，他将TPU定位为"算力增长是提升AI性能的关键，而TPU正是以经济高效的方式实现这一扩展的工具。"

Yann LeCun（Meta首席AI科学家、纽约大学教授）倾向于支持GPU，但持有独特视角。Meta的大规模AI研究（LLaMA系列等）全部在英伟达GPU上进行。他表示"通用GPU的演进速度太快，ASIC难以追赶"，但同时也承认从长远来看，领域专用芯片的重要性不可忽视。作为开源主义者，他对过度依赖特定供应商持警惕态度。

Jim Keller（Tenstorrent CEO、AMD Zen/苹果A系列/特斯拉Dojo设计者）正面挑战英伟达。"英伟达的护城河没有人们想象的那么深。一旦出现优质替代方案，迁移就会发生。"他积极推进基于RISC-V的开放架构，并直言"GPU+CUDA的模式并非最优解。"

Elon Musk用实际行动给出了答案。他在特斯拉开发了自研AI芯片Dojo，最终却在xAI购入了10万块英伟达H100。"GPU是新的黄金"这句话，最简洁地道出了英伟达主导地位的现实。

Andrew Ng（斯坦福大学教授、Coursera联合创始人）是务实的中间派。作为早期基于GPU的深度学习研究先驱，他表示："与其纠结用哪款芯片，不如专注于做什么。不过就目前而言，GPU+CUDA的生态系统生产力最高。"

从数字看GPU vs TPU——市场数据与投资动向

AI半导体市场的数字，既映照出英伟达（NVIDIA）的压倒性统治，也折射出挑战者力量的崛起。

英伟达数据中心营收从2023财年（2023年1月期）的150亿美元（约2.25万亿日元），增长至2024财年的475亿美元（约7.125万亿日元），再到2025财年的1,152亿美元（约17.28万亿日元），仅用两年时间便膨胀至约8倍。其在AI训练加速器市场的份额估计占70～95%。a16z将这一营收规模形容为"AI产业税"。

AMD凭借MI300X发起追击，将2024年AI加速器营收目标设定在500亿美元（约7,500亿日元）左右。但这一规模尚不及英伟达的十分之一，市场份额仅维持在5～15%左右。

谷歌云TPU的直接销售数据未予公开。Alphabet就谷歌云整体业务报告称，2024年全年营收约为430亿美元（约6.45万亿日元，同比增长28%），并实现了营业利润的扭亏为盈。使用TPU的企业数量据称在数百家以上，但谷歌内部使用占据绝大多数——搜索、YouTube、Gmail、谷歌翻译及Gemini的大部分推理工作负载均运行在TPU之上。

多家调研机构预测，AI半导体整体市场规模将于2024年达到约700～800亿美元（约10.5万亿～12万亿日元），并于2030年攀升至3,000～4,000亿美元（约45万亿～60万亿日元），年均增速为20～30%。

云服务提供商的资本支出同样急剧膨胀。Sundar Pichai（谷歌/Alphabet CEO）宣布了年均750亿美元（约11.25万亿日元）规模的资本支出计划，微软与亚马逊也计划进行同等规模的投资。这场"AI基础设施军备竞赛"的最大受益者是英伟达，但各公司在定制芯片研发方面的投入也在加速推进。

AI训练成本的急剧攀升，进一步凸显了成本效率的重要性。从GPT-3约460万美元（2020年）的训练成本估算，到GPT-4逾1亿美元（2023年）的推测，再到下一代模型5～10亿美元的预估，在这一量级下，TPU所带来的30～50%成本优势，意味着1.5亿～5亿美元的差距。

定制芯片的浪潮——GPU与TPU之外的第三条路

除了GPU与TPU的二元对立之外，"定制芯片"这一第三股潮流正在不断壮大。

Amazon/AWS推出了Trainium 2（2024年），致力于降低对NVIDIA的依赖。目前正在为Anthropic的下一代模型训练构建大规模Trainium集群"Project Rainier"。此外还部署了专注于推理的Inferentia 2。

Microsoft于2023年11月发布了首款AI专用芯片Maia 100。与基于Arm架构的CPU Cobalt搭配，面向Azure进行部署，但规模目前仍较为有限，与NVIDIA的合作关系在短期内仍是核心主轴。

Meta通过MTIA v2实现了推理性能3倍的提升。不过训练仍以NVIDIA GPU为核心，MTIA专注于推理侧的成本优化。

Apple通过Apple Silicon（M系列）在端侧AI推理中使用自研芯片，但数据中心的模型训练仍依赖NVIDIA GPU。

除上述动向之外，初创企业的挑战也在持续。Cerebras（晶圆级芯片）、Groq（推理专用LPU，超低延迟）、Tenstorrent（基于RISC-V，由Jim Keller主导）、Etched（Transformer专用ASIC）等，各自以不同的方式挑战NVIDIA的主导地位。

斯坦福HAI（以人为中心的AI研究所）发布的《AI Index Report 2024》指出，计算成本已成为AI研究的瓶颈，GPU/TPU获取渠道的不平等正在阻碍"AI研究民主化"的进程，并对此发出警示。

未来趋势——迈向异构化的未来

GPU与TPU之间的竞争，最终并非"两者之中必有一胜"，而是异构（多种芯片混合）环境的融合，这是最为可能的发展走向。

NVIDIA的路线图正在提速：Blackwell（2024～2025年）→ Rubin（2026年，搭载HBM4与新型NVLink）→ Vera（2028年），正式宣告从传统的两年周期向一年周期转变。其进展不仅体现在单芯片性能的提升，更在于以NVLink、NVSwitch、Spectrum-X Ethernet以及软件（NIM、NEMO）为一体的集成平台化持续推进。

Google同样持续更新换代。Trillium（v6）的下一代预计将以18～24个月的周期推出。自研CPU"Axion"（基于Arm架构，2024年发布）的整合也在推进之中，TPU+GPU+CPU的"AI超级计算机"构想正在成形。推理优化对于Gemini的大规模部署而言，是尤为关键的课题。

在软件层面，提升跨芯片可移植性的趋势正在加速。MLIR、OpenXLA等机器学习编译器的标准化进程持续推进，Triton（由OpenAI/Meta开发）也在探索向GPU以外后端的扩展。随着这些技术逐渐成熟，CUDA锁定的壁垒将会逐步降低。

综合分析师的预测来看，2025～2027年间，NVIDIA将在训练市场维持60～80%的份额，但在推理市场将下滑至50～60%。2028～2030年间，定制芯片（TPU、Trainium及各家ASIC）有可能在训练市场达到30～40%的占比。由于推理市场对成本高度敏感，TPU/定制芯片的渗透速度将在该领域最为迅猛。

如果Jensen Huang所描绘的"每家企业都将成为AI工厂"的愿景得以实现，那么这些工厂的基础设施将不只是NVIDIA GPU，而是Google TPU、AWS Trainium与各家定制ASIC并存的多元化配置。问题的关键已不在于"GPU vs TPU"的胜负之争，而在于各家企业依据工作负载、规模与成本结构来选择最优芯片的时代已然到来。

对行业的影响

第一，英伟达的GPU主导地位短期内不可撼动，但"英伟达税"这一成本结构可能制约整个AI产业的增长。数据中心营收1152亿美元（FY2025）这一数字，揭示了AI产业向"计算工厂"支付成本的巨大规模。Sequoia Capital指出的"GPU投资与收益之间的缺口"，正在催生向成本优化替代方案——TPU、Trainium、定制ASIC——结构性转移的压力。

第二，TPU的性价比对于尤其注重资金效率的AI初创企业而言，是不可忽视的优势。训练成本降低30～50%，在下一代模型（预计训练成本5～10亿美元）的规模下，意味着数亿美元的差距。Anthropic、Character.AI、Cohere等企业选择TPU的事实，表明成本优势已从"理论"阶段进入"实践"阶段。

第三，CUDA生态系统既是英伟达最大的优势，同时也是整个AI产业的瓶颈。逾400万名开发者的基础使迁移成本极高，但随着MLIR/OpenXLA/Triton等跨芯片编译器技术的演进，这一壁垒有望在中期内降低。Jim Keller所言"英伟达的护城河没有人们想象的那么深"是否会成为现实，取决于这些软件技术的成熟程度。

第四，AI半导体市场正从GPU vs TPU的二元对立，向异构（多种芯片并存）环境演进。Amazon Trainium、Microsoft Maia、Meta MTIA，以及Cerebras、Groq、Tenstorrent、Etched等初创企业的挑战相继涌现，企业正被迫根据工作负载、规模及成本结构来选择芯片。在训练市场，英伟达GPU的优势将在一段时间内持续；而在推理市场，TPU/定制芯片的渗透速度最快。

参考资料：NVIDIA FY2025 Annual Report & Earnings（2025年1月）、NVIDIA GTC 2024主题演讲（Jensen Huang）、Google Cloud Next 2024（Trillium/TPU v6发布）、Google ISCA 2023 TPU v4论文（Jeff Dean、David Patterson等）、Sequoia Capital《AI's $600B Question》（2024）、a16z《Who Owns the Generative AI Platform?》（Martin Casado、Matt Bornstein，2023）、Goldman Sachs《AI Infrastructure: The Next $1 Trillion Opportunity》（2024）、Morgan Stanley英伟达覆盖报告、Bernstein Research（Stacy Rasgon）半导体分析、Stanford HAI AI Index Report 2024、MLCommons MLPerf Training v4.0结果（2024）、Google Cloud TPU定价与文档、AWS P5/Trainium定价、Azure ND H100定价、David Patterson《A Domain-Specific Supercomputer for Training Deep Neural Networks》（Communications of the ACM，2020）、Anthropic-Google Cloud合作公告（2023）、Character.AI TPU基础设施报告、Elon Musk xAI Colossus公告、Sam Altman AI芯片融资报告（Bloomberg，2024）、Jim Keller Tenstorrent采访及RISC-V愿景、Yann LeCun AI硬件评论、Andrew Ng基于GPU的深度学习研究、Cerebras/Groq/SambaNova/Etched融资轮次（TechCrunch、The Information）、Google Axion CPU公告（2024）、NVIDIA Rubin/Vera路线图（GTC 2024）、The Information《英伟达税》报道、IEEE Spectrum TPU架构分析、日经Cross Tech英伟达/AI半导体专题