GPU的起源——从游戏到AI霸主
NVIDIA的GPU成为AI芯片代名词的历程,由一位企业家的远见卓识与数个历史性转折点共同塑造。
1993年,Jensen Huang、Chris Malachowsky和Curtis Priem在加利福尼亚州圣克拉拉创立了NVIDIA。公司最初的业务是面向PC游戏的图形芯片。1999年,NVIDIA发布GeForce 256,并率先提出"GPU(图形处理单元)"这一术语。2000年代初,公司与ATI(后被AMD收购)在游戏GPU市场展开了激烈的市场份额争夺。
第一个转折点是2006年CUDA(统一计算设备架构)的发布。CUDA将原本专为图形渲染设计的GPU数千个核心,以可用于通用并行计算的编程模型形式开放出来。开发者得以通过类C语言的代码充分利用GPU的并行性,科学计算和物理仿真领域的研究人员纷纷趋之若鹜。彼时,没有人预料到CUDA会成为AI产业的"护城河(moat)"。
第二个转折点是2012年的"AlexNet冲击"。Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在ImageNet竞赛中,使用两块GTX 580 GPU训练的卷积神经网络"AlexNet"大获全胜。这一成果将图像识别错误率从26%大幅降至16%,成为"深度学习革命"的起点。Jensen Huang事后将这一时刻称为"大爆炸",并由此决定将AI定为NVIDIA未来的核心业务。
此后,NVIDIA加速推进面向数据中心GPU的迭代升级。2017年Volta架构的Tesla V100首次搭载专为AI运算设计的Tensor Core,通过混合精度运算(FP16/FP32)实现大幅提速。2020年Ampere架构的A100达到312 TFLOPS(TF32),叠加新冠疫情期间AI需求的急剧增长,数据中心营收随之飞速攀升。2022年Hopper架构的H100搭载Transformer Engine,支持FP8运算,成为GPT系大规模模型训练的"标准"配置。2024年,NVIDIA发布Blackwell架构B200/GB200,该芯片将两个裸片集成于单一封装,拥有2080亿个晶体管,支持FP4运算,峰值性能达20 PFLOPS。GB200 NVL72(72块GPU液冷机架)号称推理性能较上一代提升30倍。
2025财年(截至2025年1月),NVIDIA营收达1305亿美元(约合19.575万亿日元),同比增长114%。其中数据中心业务营收1152亿美元(约合17.28万亿日元),占总营收的88%。公司市值突破3万亿美元(约合450万亿日元),跻身全球最具价值企业之列。
TPU的起源——谷歌自研芯片的原因
谷歌开发TPU的动机,并非出于纯粹的技术野心,而是经济上的必然。
2010年代初,深度学习在谷歌内部的应用急剧扩张。语音识别、谷歌翻译、搜索排名、YouTube推荐——神经网络被嵌入到各类服务之中。谷歌内部估算,"如果所有用户每天仅使用3分钟语音搜索,当时的数据中心容量就需要翻倍。"持续大量采购英伟达GPU,无论从成本还是供应角度来看,都难以为继。
谷歌对这一挑战的回应,是领域专用架构(DSA)——一种专为神经网络计算设计的自研芯片。在Jeff Dean(时任Google Brain负责人)与David Patterson(加州大学伯克利分校荣誉教授、RISC发明者、2016年起任谷歌杰出工程师)等人的主导下,TPU v1于2015年在谷歌内部正式投入运行。
TPU v1是一款专用于推理的8位整数运算芯片,性能达92 TOPS(INT8)。2016年3月,DeepMind的AlphaGo击败李世石时,推理环节正是使用了TPU v1,由此声名大噪。
TPU的设计理念与GPU有着根本性的不同。GPU追求通用并行计算,而TPU则采用脉动阵列(Systolic Array)结构,专为矩阵乘法(GEMM)优化。通过最大化数据复用,提升每瓦性能。此外,谷歌率先引入的BFloat16(Brain Float 16)格式,以略微牺牲精度为代价,大幅提升了吞吐量。BFloat16此后被英伟达GPU(V100及以后)和英特尔CPU相继采用,成为行业标准。
TPU持续稳步迭代。2017年的v2实现了训练支持与HBM搭载,并开始在谷歌云上对外开放;2018年的v3引入液冷技术;2021年的v4搭载SparseCore,并通过光电路交换机(OCS)构建4,096芯片Pod,突破1 EXAFLOPS。2023年推出v5e(侧重成本效率)与v5p(侧重性能,8,960芯片Pod)。2024年,第六代"Trillium"正式发布,相比v5e,训练性能提升4.7倍,能效提升67%。
技术上的擅长与不擅长——通用性 vs 专项效率
整理GPU与TPU的技术特性,两者设计理念的差异便清晰可见。
NVIDIA GPU的优势,首先在于通用性。不仅支持AI训练与推理,还能应对科学计算、渲染、仿真、加密货币挖矿等各类并行计算工作负载。其次是CUDA生态系统的规模。估计拥有超过400万名CUDA开发者,以及cuDNN、TensorRT、NCCL、Triton等优化库群,PyTorch、TensorFlow、JAX三大框架均以一等公民级别支持CUDA优化。这一历经15年以上构建的软件基础,"绝非一朝一夕可以复制"(Jensen Huang)。第三,NVLink/NVSwitch实现的GPU间高带宽通信(H100双向900 GB/s),以及通过收购Mellanox(2019年,69亿美元)整合InfiniBand网络,从而实现了从芯片到集群的端到端优化。
另一方面,GPU的弱点同样明确。H100功耗达700W,B200超过1,000W,数据中心的电力与冷却成本极为庞大。H100单卡售价约25,000至40,000美元,DGX H100系统(8块GPU)超过20万美元。2023至2024年间陷入严重供货短缺,交货周期长达6至12个月。此外,对CUDA的依赖既是"护城河",也是"锁定"。迁移至其他硬件的成本极高,AMD的ROCm尚未赶上CUDA的成熟度。
TPU的优势首先在于性价比(详见下章)。专为矩阵运算设计,每瓦性能更高。Trillium相较v5e实现了67%的能效提升。ICI(芯片间互联)实现的芯片直连,达到了与NVLink相当的低延迟、高带宽,且已在数千芯片的Pod配置中得到验证。与Google自研的JAX框架高度契合,Gemini的训练正是采用JAX+TPU的组合完成的。
TPU的弱点在于:仅限Google Cloud使用(不可本地购买)、生态系统相较CUDA更小(PyTorch的TPU支持通常落后于CUDA版本),以及存在TPU特有优化(数据流水线设计、分片策略)的学习曲线。
在MLPerf基准测试(由MLCommons主办,AI性能的行业标准)中,NVIDIA凭借Blackwell在几乎所有类别中录得最高性能,而Google TPU v5p也在多个类别中取得顶级成绩。但需注意,MLPerf是竞逐"最高性能"的基准测试,并不衡量成本效率。TPU最大优势——性价比——在结构上并未体现于MLPerf之中。
TPU的性价比——值得关注的结构性优势
在GPU与TPU的争论中,最容易被忽视却最为关键的论点是性价比。
谷歌在每一代TPU发布时,始终强调其成本优势。TPU v5e发布时(2023年8月)宣称"训练成本较v4降低一半,推理成本降至约三分之一";v5p发布时(2023年12月)宣称"在大规模模型训练上具有优于H100的性价比";Trillium发布时(2024年)宣称"每美元性能较v5e提升4.7倍"。
云端价格的直接比较因配置和地区而有所波动,但粗略估算可呈现出如下格局:在Google Cloud上,TPU v5e按需计费约为每芯片1.20美元/时,三年承诺使用可降至约0.50美元/时;而同一Google Cloud上的H100(A3实例)约为每GPU 3.90美元/时;AWS的H100(p5实例)约为每GPU 12.29美元/时;CoreWeave、Lambda等GPU云服务商约为2.00~2.50美元/时。
在LLM训练成本比较方面,训练LLaMA 2 70B规模的模型,若使用2,048块H100(以AWS/Azure为例)约需200~300万美元(约3亿~4.5亿日元),而据谷歌声称,使用同等规模的TPU v5p配置可节省30~50%的成本,即约100~200万美元(约1.5亿~3亿日元)。在每个token的推理成本方面,谷歌声称TPU v5e相较H100最多可实现2.5倍的成本效率提升。
这一成本优势的形成有三个结构性原因:第一,TPU凭借专用领域设计,在矩阵运算的每瓦效率上优于GPU,牺牲通用性所换来的效率直接体现在成本上;第二,谷歌对TPU的设计、制造(委托台积电)和运营实施垂直整合,不存在作为第三方购买英伟达GPU时所产生的中间利润,谷歌内部使用TPU的成本很可能远低于对外客户的报价;第三,谷歌的数据中心实现了PUE(电能利用效率)约1.1的世界顶级能源效率,有效压低了电力和冷却成本。
不过,成本比较存在几个重要注意事项:直接比较的困难性(云端计费体系的差异)、优化程度的影响(若代码未分别针对TPU/GPU进行优化,比较便失去公平性),以及隐性成本(数据传输费、工程师时间、TPU迁移的学习成本)均需纳入考量。此外,由于TPU仅限于Google Cloud,对于倾向于多云战略或本地部署运营的企业而言,TPU并非可选项。
考虑到AI训练成本的急剧攀升——GPT-3(估计460万美元,2020年)→ GPT-4(估计超1亿美元,2023年)→ 下一代模型(估计5~10亿美元)——性价比的差异将带来数千万美元量级的影响。这对于尤其注重资金效率的初创企业而言,构成了选择TPU的强有力经济动机。
企业的基础设施选择——为何产生分歧
AI开发的基础设施选择,因企业的战略、合作关系及技术背景不同而存在显著差异。
OpenAI与Microsoft Azure建立了战略合作关系,GPT-4/o的训练在Azure上的NVIDIA GPU(估计数万至10万张H100)上进行。CEO Sam Altman表示"从长远来看,需要针对AI优化的多样化芯片",同时据报道(Bloomberg),他在2024年初曾构想筹集5至7万亿美元用于自研AI芯片制造。尽管这一构想本身未能实现,但充分体现了对GPU供应的深切危机感。
Meta明确采取NVIDIA GPU唯一化战略。Mark Zuckerberg宣布Meta将在2024年底前确保约35万张H100,LLaMA 3.1 405B估计使用超过16,000张H100进行训练。Meta正在开发用于推理的定制芯片MTIA(v2推理性能提升3倍),但训练仍以NVIDIA GPU为核心。对于坚持开源主义的Meta而言,CUDA生态系统与PyTorch的高度兼容性是选择GPU的最大理由。
xAI(Elon Musk)则走得更为极端。其在田纳西州孟菲斯建设了全球最大规模的单一GPU集群"Colossus",部署了10万张H100。Musk公开表示"GPU是新的黄金"、"无法充分获取GPU的企业将无法参与AI竞争"。尽管他在Tesla开发了自研AI芯片Dojo(D1),最终还是大幅增加了对NVIDIA GPU的投资,并于2024年实际上缩减了Dojo计划。这是一个象征性案例,揭示了自研芯片开发的艰难程度。
另一方面,选择TPU的初创企业也在稳步增加。Anthropic依托Google超过20亿美元的投资(2023年),在Google Cloud TPU上进行Claude的训练,同时借助Amazon 40亿美元的投资,并用AWS上的GPU/Trainium,采取混合战略。Character.AI(由Google Brain出身的Noam Shazeer和Daniel De Freitas创立)使用TPU v4/v5e处理每日数百万用户的对话,将大规模推理的成本效率作为选择的主要因素。Cohere同时使用TPU和GPU,实现多云兼容。MidJourney早期利用Google Cloud TPU训练图像生成模型。
Google/DeepMind自身自然以TPU为核心。Gemini在TPU v5p上训练,PaLM 2在TPU v4 Pod上训练,AlphaFold也在TPU上运行。不过,Google Cloud也为客户提供NVIDIA H100/A100,展示了"提供选择"的姿态。据悉,Google内部大部分AI推理工作负载——搜索、YouTube、Gmail、Google翻译、Gemini——均运行在TPU之上。
硅谷风投视角——NVIDIA主导地位的持续性与替代情景
硅谷的风险投资人将GPU与TPU之争视为"AI产业的结构性风险",而非单纯的"芯片性能比较"。
Sequoia Capital在2024年上半年发布的报告《AI's $600B Question》中指出,英伟达GPU销售额超过500亿美元,而AI企业的实际收益却远低于此。该报告暗示GPU/算力投资可能存在过热现象,并凸显了通过替代方案(TPU、定制芯片)优化成本的重要性。
a16z(Andreessen Horowitz)的Martin Casado与Matt Bornstein在2023年发布的《Who Owns the Generative AI Platform?》中分析了AI企业的成本结构,指出"AI初创企业的毛利率因GPU成本而低于传统SaaS企业"。a16z将AI基础设施层(GPU/TPU)视为由英伟达/谷歌掌控的"税收",认为VC投资的最大机遇在于应用层,同时也关注"依赖英伟达的风险"以及定制硅芯片的崛起。Matt Bornstein预测"2026年将是AI智能体之年",但同时指出基础算力成本的优化将决定初创企业的生死存亡。
VC的投资行为印证了这一认知。作为对英伟达垄断地位的"替代"选项,大规模投资正流向以下AI芯片初创企业:Cerebras Systems(累计融资约7亿美元,约合1,050亿日元,晶圆级芯片WSE-3)、Groq(累计融资约6.4亿美元,约合960亿日元,推理专用LPU)、SambaNova Systems(累计融资约11亿美元,约合1,650亿日元,RDU)、Tenstorrent(累计融资约3亿美元,约合450亿日元,由Jim Keller主导的基于RISC-V架构)、Etched(累计融资约1.2亿美元,约合180亿日元,Transformer专用ASIC"Sohu")。
VC界的普遍共识可从三个时间维度加以梳理:短期(1至3年),英伟达的主导地位不可撼动——CUDA护城河坚固,Blackwell/Rubin架构迭代迅速;中期(3至5年),定制硅芯片(含TPU)市场份额将持续扩大,尤其在推理市场表现突出;长期(5年以上),异构计算(GPU+TPU+定制ASIC混合)环境将成为行业标准。
高盛在2024年发布的《AI Infrastructure: The Next $1 Trillion Opportunity》报告中,将英伟达定位为短期赢家,同时将谷歌TPU与AWS Trainium列为"最具潜力的替代方案"。摩根士丹利分析认为"英伟达的护城河在于CUDA生态系统而非硬件本身";Bernstein Research的Stacy Rasgon——英伟达最知名的分析师——在肯定"英伟达竞争力将在未来数年持续"的同时,也指出从长远来看,ASIC/定制芯片的崛起可能对其毛利率造成压力。
名人争论——GPU派 vs TPU派
GPU与TPU之争,即便在硅谷的知名人士之间也存在分歧。
Jensen Huang(英伟达CEO)一贯主张GPU的通用性将带来长期优势。"针对特定工作负载的芯片或许暂时效率更高,但AI模型正在迅速演进。具备通用性的GPU平台从长远来看更具优势。"谈及CUDA,他表示"数百万的安装基础是历经15年以上构建的生态系统,绝非一蹴而就能够复制的。"在GTC 2024上,他宣称"下一场工业革命已经开始。"英伟达的路线图宣布了一年一代的更新周期(Blackwell→Rubin→Vera),较以往两年一代的周期大幅提速。
David Patterson(UC伯克利荣誉教授、谷歌杰出工程师)是TPU阵营最有力的论战者。作为RISC与RAID的发明者,他在半导体设计史上留下了深刻印记。他在2020年的论文《A Domain-Specific Supercomputer for Training Deep Neural Networks》中论证了TPU的优越性,并于2023年与Jeff Dean联合发表ISCA论文,公开了TPU v4的架构细节。他主张:"领域专用架构比通用处理器效率高出数个量级。"
Jeff Dean(谷歌首席科学家)是TPU开发的核心推动者。他表示:"TPU的设计哲学在于充分利用神经网络计算的本质特性——即便牺牲一定精度,也要最大化吞吐量。"作为扩展定律的信奉者,他将TPU定位为"算力增长是提升AI性能的关键,而TPU正是以经济高效的方式实现这一扩展的工具。"
Yann LeCun(Meta首席AI科学家、纽约大学教授)倾向于支持GPU,但持有独特视角。Meta的大规模AI研究(LLaMA系列等)全部在英伟达GPU上进行。他表示"通用GPU的演进速度太快,ASIC难以追赶",但同时也承认从长远来看,领域专用芯片的重要性不可忽视。作为开源主义者,他对过度依赖特定供应商持警惕态度。
Jim Keller(Tenstorrent CEO、AMD Zen/苹果A系列/特斯拉Dojo设计者)正面挑战英伟达。"英伟达的护城河没有人们想象的那么深。一旦出现优质替代方案,迁移就会发生。"他积极推进基于RISC-V的开放架构,并直言"GPU+CUDA的模式并非最优解。"
Elon Musk用实际行动给出了答案。他在特斯拉开发了自研AI芯片Dojo,最终却在xAI购入了10万块英伟达H100。"GPU是新的黄金"这句话,最简洁地道出了英伟达主导地位的现实。
Andrew Ng(斯坦福大学教授、Coursera联合创始人)是务实的中间派。作为早期基于GPU的深度学习研究先驱,他表示:"与其纠结用哪款芯片,不如专注于做什么。不过就目前而言,GPU+CUDA的生态系统生产力最高。"
从数字看GPU vs TPU——市场数据与投资动向
AI半导体市场的数字,既映照出英伟达(NVIDIA)的压倒性统治,也折射出挑战者力量的崛起。
英伟达数据中心营收从2023财年(2023年1月期)的150亿美元(约2.25万亿日元),增长至2024财年的475亿美元(约7.125万亿日元),再到2025财年的1,152亿美元(约17.28万亿日元),仅用两年时间便膨胀至约8倍。其在AI训练加速器市场的份额估计占70~95%。a16z将这一营收规模形容为"AI产业税"。
AMD凭借MI300X发起追击,将2024年AI加速器营收目标设定在500亿美元(约7,500亿日元)左右。但这一规模尚不及英伟达的十分之一,市场份额仅维持在5~15%左右。
谷歌云TPU的直接销售数据未予公开。Alphabet就谷歌云整体业务报告称,2024年全年营收约为430亿美元(约6.45万亿日元,同比增长28%),并实现了营业利润的扭亏为盈。使用TPU的企业数量据称在数百家以上,但谷歌内部使用占据绝大多数——搜索、YouTube、Gmail、谷歌翻译及Gemini的大部分推理工作负载均运行在TPU之上。
多家调研机构预测,AI半导体整体市场规模将于2024年达到约700~800亿美元(约10.5万亿~12万亿日元),并于2030年攀升至3,000~4,000亿美元(约45万亿~60万亿日元),年均增速为20~30%。
云服务提供商的资本支出同样急剧膨胀。Sundar Pichai(谷歌/Alphabet CEO)宣布了年均750亿美元(约11.25万亿日元)规模的资本支出计划,微软与亚马逊也计划进行同等规模的投资。这场"AI基础设施军备竞赛"的最大受益者是英伟达,但各公司在定制芯片研发方面的投入也在加速推进。
AI训练成本的急剧攀升,进一步凸显了成本效率的重要性。从GPT-3约460万美元(2020年)的训练成本估算,到GPT-4逾1亿美元(2023年)的推测,再到下一代模型5~10亿美元的预估,在这一量级下,TPU所带来的30~50%成本优势,意味着1.5亿~5亿美元的差距。
定制芯片的浪潮——GPU与TPU之外的第三条路
除了GPU与TPU的二元对立之外,"定制芯片"这一第三股潮流正在不断壮大。
Amazon/AWS推出了Trainium 2(2024年),致力于降低对NVIDIA的依赖。目前正在为Anthropic的下一代模型训练构建大规模Trainium集群"Project Rainier"。此外还部署了专注于推理的Inferentia 2。
Microsoft于2023年11月发布了首款AI专用芯片Maia 100。与基于Arm架构的CPU Cobalt搭配,面向Azure进行部署,但规模目前仍较为有限,与NVIDIA的合作关系在短期内仍是核心主轴。
Meta通过MTIA v2实现了推理性能3倍的提升。不过训练仍以NVIDIA GPU为核心,MTIA专注于推理侧的成本优化。
Apple通过Apple Silicon(M系列)在端侧AI推理中使用自研芯片,但数据中心的模型训练仍依赖NVIDIA GPU。
除上述动向之外,初创企业的挑战也在持续。Cerebras(晶圆级芯片)、Groq(推理专用LPU,超低延迟)、Tenstorrent(基于RISC-V,由Jim Keller主导)、Etched(Transformer专用ASIC)等,各自以不同的方式挑战NVIDIA的主导地位。
斯坦福HAI(以人为中心的AI研究所)发布的《AI Index Report 2024》指出,计算成本已成为AI研究的瓶颈,GPU/TPU获取渠道的不平等正在阻碍"AI研究民主化"的进程,并对此发出警示。
未来趋势——迈向异构化的未来
GPU与TPU之间的竞争,最终并非"两者之中必有一胜",而是异构(多种芯片混合)环境的融合,这是最为可能的发展走向。
NVIDIA的路线图正在提速:Blackwell(2024~2025年)→ Rubin(2026年,搭载HBM4与新型NVLink)→ Vera(2028年),正式宣告从传统的两年周期向一年周期转变。其进展不仅体现在单芯片性能的提升,更在于以NVLink、NVSwitch、Spectrum-X Ethernet以及软件(NIM、NEMO)为一体的集成平台化持续推进。
Google同样持续更新换代。Trillium(v6)的下一代预计将以18~24个月的周期推出。自研CPU"Axion"(基于Arm架构,2024年发布)的整合也在推进之中,TPU+GPU+CPU的"AI超级计算机"构想正在成形。推理优化对于Gemini的大规模部署而言,是尤为关键的课题。
在软件层面,提升跨芯片可移植性的趋势正在加速。MLIR、OpenXLA等机器学习编译器的标准化进程持续推进,Triton(由OpenAI/Meta开发)也在探索向GPU以外后端的扩展。随着这些技术逐渐成熟,CUDA锁定的壁垒将会逐步降低。
综合分析师的预测来看,2025~2027年间,NVIDIA将在训练市场维持60~80%的份额,但在推理市场将下滑至50~60%。2028~2030年间,定制芯片(TPU、Trainium及各家ASIC)有可能在训练市场达到30~40%的占比。由于推理市场对成本高度敏感,TPU/定制芯片的渗透速度将在该领域最为迅猛。
如果Jensen Huang所描绘的"每家企业都将成为AI工厂"的愿景得以实现,那么这些工厂的基础设施将不只是NVIDIA GPU,而是Google TPU、AWS Trainium与各家定制ASIC并存的多元化配置。问题的关键已不在于"GPU vs TPU"的胜负之争,而在于各家企业依据工作负载、规模与成本结构来选择最优芯片的时代已然到来。
对行业的影响
第一,英伟达的GPU主导地位短期内不可撼动,但"英伟达税"这一成本结构可能制约整个AI产业的增长。数据中心营收1152亿美元(FY2025)这一数字,揭示了AI产业向"计算工厂"支付成本的巨大规模。Sequoia Capital指出的"GPU投资与收益之间的缺口",正在催生向成本优化替代方案——TPU、Trainium、定制ASIC——结构性转移的压力。
第二,TPU的性价比对于尤其注重资金效率的AI初创企业而言,是不可忽视的优势。训练成本降低30~50%,在下一代模型(预计训练成本5~10亿美元)的规模下,意味着数亿美元的差距。Anthropic、Character.AI、Cohere等企业选择TPU的事实,表明成本优势已从"理论"阶段进入"实践"阶段。
第三,CUDA生态系统既是英伟达最大的优势,同时也是整个AI产业的瓶颈。逾400万名开发者的基础使迁移成本极高,但随着MLIR/OpenXLA/Triton等跨芯片编译器技术的演进,这一壁垒有望在中期内降低。Jim Keller所言"英伟达的护城河没有人们想象的那么深"是否会成为现实,取决于这些软件技术的成熟程度。
第四,AI半导体市场正从GPU vs TPU的二元对立,向异构(多种芯片并存)环境演进。Amazon Trainium、Microsoft Maia、Meta MTIA,以及Cerebras、Groq、Tenstorrent、Etched等初创企业的挑战相继涌现,企业正被迫根据工作负载、规模及成本结构来选择芯片。在训练市场,英伟达GPU的优势将在一段时间内持续;而在推理市场,TPU/定制芯片的渗透速度最快。
参考资料:NVIDIA FY2025 Annual Report & Earnings(2025年1月)、NVIDIA GTC 2024主题演讲(Jensen Huang)、Google Cloud Next 2024(Trillium/TPU v6发布)、Google ISCA 2023 TPU v4论文(Jeff Dean、David Patterson等)、Sequoia Capital《AI's $600B Question》(2024)、a16z《Who Owns the Generative AI Platform?》(Martin Casado、Matt Bornstein,2023)、Goldman Sachs《AI Infrastructure: The Next $1 Trillion Opportunity》(2024)、Morgan Stanley英伟达覆盖报告、Bernstein Research(Stacy Rasgon)半导体分析、Stanford HAI AI Index Report 2024、MLCommons MLPerf Training v4.0结果(2024)、Google Cloud TPU定价与文档、AWS P5/Trainium定价、Azure ND H100定价、David Patterson《A Domain-Specific Supercomputer for Training Deep Neural Networks》(Communications of the ACM,2020)、Anthropic-Google Cloud合作公告(2023)、Character.AI TPU基础设施报告、Elon Musk xAI Colossus公告、Sam Altman AI芯片融资报告(Bloomberg,2024)、Jim Keller Tenstorrent采访及RISC-V愿景、Yann LeCun AI硬件评论、Andrew Ng基于GPU的深度学习研究、Cerebras/Groq/SambaNova/Etched融资轮次(TechCrunch、The Information)、Google Axion CPU公告(2024)、NVIDIA Rubin/Vera路线图(GTC 2024)、The Information《英伟达税》报道、IEEE Spectrum TPU架构分析、日经Cross Tech英伟达/AI半导体专题