什么是TPU

TPU(Tensor Processing Unit,张量处理单元)是谷歌为加速自家神经网络推理与训练而设计的专用ASIC(特定用途集成电路),它剥离了通用GPU所配备的可变流水线和光线追踪等与之无关的功能,将架构彻底聚焦于矩阵乘法运算(MatMul)和归约运算。初代TPU于2015年在公司内部投入使用,时任CEO桑达尔·皮查伊在2016年的Google I/O上首次对外公开其存在。此后,谷歌在TPU v2中搭载HBM并将其扩展用于训练,在v3中引入液冷,在v4和v5中通过光路开关(OCS)确立了3D环面(3D Torus)互连结构,并在第六代"Trillium"和第七代"Ironwood"中致力于大规模训练与高速推理的兼顾。

在设计层面,其特征体现在被称为矩阵运算单元(MXU)的脉动阵列、由HBM提供的超高带宽内存,以及将整个Pod视作一台逻辑机器的"纵向扩展互连结构(Scale-up Fabric)"。Nvidia GPU是通过NVLink与InfiniBand将各个独立节点捆绑在一起,而TPU则秉持将硬件一致性的共享内存空间巨型化、把单个作业整体容纳其中的理念,并与JAX和Pathways等谷歌自研软件栈一体化运作——这是它与其他公司ASIC最大的区别。SemiAnalysis的迪伦·帕特尔将其表述为"并非微架构层面,而是系统架构层面的优势",并将其定位为谷歌云相对于Microsoft Azure和Amazon EC2在结构性总拥有成本上占据优势的源泉。

TPU 8t、TPU 8i的冲击 —— 第八代迎来的"分岔点"

第八代最大的争议点在于,Google首次将TPU拆分为一条产品线两款芯片。训练用的"TPU 8t"(内部代号 Sunfish)由Broadcom主导设计,由9,600颗芯片构成的超级Pod搭载2 PB的共享HBM与121 ExaFLOPs(FP4),相较Ironwood,训练性价比最高提升2.8倍。另一方面,面向推理及推理时推理(Reasoning)的"TPU 8i"(代号 Zebrafish)则由新合作伙伴MediaTek负责设计,由1,152颗芯片构成的Pod搭载288GB HBM与384MB片上SRAM(为上代的3倍),相较Ironwood将推理性价比改善了80%。两款芯片就单芯片的绝对算力而言,相对Nvidia Vera Rubin R200及AMD MI455X仍处于3比1的劣势区间,但Google主张,以Pod为单位乃至数据中心为单位计算的总拥有成本与吞吐量上,足以与之分庭抗礼甚至更胜一筹。

冲击的核心有三点。第一,Google实质上放弃了"通用AI芯片"这一概念。HyperFRAME Research将此评价为"对预训练与Agent大规模并行推理的负载特性已过度背离这一事实的隐性自认",并指出Google已从混合优化转向专用化路线。第二,Broadcom的独占体制瓦解,MediaTek得以加入,以美国银行Vivek Arya为首的分析师团队估算,由此每颗TPU的ASP将从此前的5,000~6,000美元(约77万~93万日元)上扬至12,000~15,000美元(约186万~232万日元)。第三,Anthropic被定位为最多使用100万颗芯片的最大客户,Meta、经由Apple的Siri推理、Citadel Securities、美国能源部17所国家实验室,乃至OpenAI都已开始锁定TPU产能。专用化、双源供应、以及外部销售扩张这三股动向同时推进,正是这一点把Cloud Next 2026从"单纯的年度活动"推升为"AI基础设施市场的结构性拐点"。

技术深度解析 ― Boardfly与面料设计的革新

TPU 8t在继承传统3D Torus的同时,引入了FP4原生运算与TPUDirect RDMA。每颗芯片可发挥12.6 FP4 PFLOPs的算力,并从216GB的HBM3e以6,528GB/s的带宽供给数据。值得关注的是ICI(Inter-Chip Interconnect)升级至19.2Tbps,以及通过直连存储的TPUDirect Storage实现的10倍IO加速,这些都印证了Google所主张的"将单一作业的训练周期由数月缩短至数周"。此外,在Fabric层面,新一代"Virgo Network"以47Pbps的双向二分带宽连接超过134,000颗TPU 8t芯片,与Pathways相结合,可构建百万芯片规模的单一训练集群。配合光路交换(OCS)能够维持97%的"Goodput"利用率这一点,对于需要长期持续训练的基础模型开发而言,具有不可估量的价值。

TPU 8i的设计则更进一步。最大的结构性变更在于:摒弃了3D Torus,转而采用受2008年高基数(high-radix)研究启发、被命名为"Boardfly"的全新拓扑。在1,024芯片规模的域中进行比较,3D Torus中最远通信需要16跳,而Boardfly仅需7跳,即网络直径削减了56%。这对于Mixture-of-Experts模型或推理时推理(chain-of-thought)等需要不可预测的全对全通信的工作负载而言,具有决定性意义。此外,将Ironwood的SparseCore模块整体移除,替换为新设于核心Chiplet裸片上的Collectives Acceleration Engine(CAE),从而将自回归解码中的片上Collective延迟最高降低至原来的五分之一。Patrick Moorhead对此评价道:"这是优化延迟而非带宽,是面向Agent时代的正确押注"。同时,两款芯片均采用Google自研的基于Arm的"Axion"作为主机CPU,并结合第四代液冷,在提升单机架热密度的同时将每瓦性能较前代提升了2倍。制造工艺据称采用TSMC的2nm级节点,但Google官方并未明确表态,亦有观点认为可能属于TSMC N3系列,因此此处仍需保留判断。

硅谷VC的反应——"刀已出鞘"

硅谷主流VC将TPU 8t / 8i的发布视为加速"从Nvidia占据市场99%的未来,迈向占据80%的未来"过渡的事件。由Andreessen Horowitz合伙人安吉尼·米达(Anjney Midha)主导的"Theory of Well"论点认为,在AI技术栈中最具持续性的价值并非应用层,而是"井(well)"——即掌控咽喉要道的基础设施层。a16z已公开宣布2025年累计募资150亿美元(约2.3万亿日元),其中17亿美元(约2,600亿日元)将投向AI基础设施。该公司近期备忘录中梳理道:"Google推进自研TPU、Amazon推进Trainium / Inferentia、Microsoft推进Maia,这是一场为死守'井'位置而展开的战争,初创企业不应在此正面强攻。"换言之,a16z将TPU 8t / 8i的登场解读为重新确认自家投资组合不应押注于何处的信号。

Sequoia Capital与Founders Fund虽未发表官方评论,但业界媒体的采访均报道称,二者对Anthropic、xAI、Cohere、Mistral等基础模型企业的投资判断,正在大幅转向依赖"可获取的算力容量及其价格曲线"。Anthropic于2026年4月24日获得Google最高400亿美元(约6.2万亿日元)的追加投资及5吉瓦TPU容量,投后估值达到3,500亿美元(约54万亿日元)。紧接着其又与AWS签订5GW合约,合计锁定10GW算力容量,由Sequoia于2025年主导轮次的浮盈正在急速扩大。在Kleiner Perkins于2026年3月发布的35亿美元(约5,400亿日元)AI基金中,亦有报道指出其正在探索参与围绕TPU 8t的新型neocloud(Blackstone-Google合资项目等)的机会。

最具象征意义的动向是,Blackstone于2026年5月19日宣布向与Google的合资公司承诺50亿美元(约7,800亿日元)股权投资,并将于2027年启用500MW的TPU基础数据中心。严格来讲这属于私募股权而非VC的动作,但这也是硅谷VC圈首次意识到"在曾经一边倒倾向Nvidia系neocloud的世界中,TPU系neocloud首次作为对抗轴登场"的时刻。多位VC合伙人匿名表示:"随着TPU 8t / 8i的发布,终于迎来了认真对Nvidia以外的选项进行尽职调查的时代。"这正在成为推动硅谷VC投资主题"算力获取去中心化"的催化剂。

各报刊及各网站的报道立场

彭博社的伊恩·金(Ian King)在4月22日的报道中将TPU 8t / 8i定位为"对Nvidia大本营迄今为止最严肃的挑战",并将面向Anthropic的5GW合约与Blackstone合资公司的发布作为一组进行报道,总结称"华尔街首次理解到AI芯片竞争已不再是一骑绝尘的赛跑"。路透社的笔触则更为审慎,强调谷歌自身依然在同一Virgo架构上提供Nvidia GPU实例(Vera Rubin NVL72)这一事实,并提醒读者"这是互补而非完全替代"。《华尔街日报》聚焦于Broadcom与联发科的分工结构,报道称Broadcom股票的华尔街平均目标股价已上调至478美元(约7.4万日元),摩根士丹利的布莱恩·诺瓦克(Brian Nowak)于4月23日将目标股价从235美元(约3.6万日元)上调至258美元(约4万日元)。

科技专业媒体的论调略有不同。Tom's Hardware以"单芯片性能逊于Nvidia,但在规模化时的总拥有成本上实现反超"的框架呈现了详细的数据表,SemiAnalysis的迪伦·帕特尔(Dylan Patel)也在通讯中写道:"微架构只是AI基础设施真实成本的一小部分,系统架构与部署灵活性才是本质所在。"Stratechery的本·汤普森(Ben Thompson)刊登了对谷歌云CEO托马斯·库里安(Thomas Kurian)的独家专访,评价称"谷歌将自身作为首位用户(customer zero)锤炼了十年的积累,终于结晶为可对外销售的产品"。另一方面,Moor Insights & Strategy的Patrick Moorhead将其定调为"TPU并非'迎战'Nvidia,而是像Apple Silicon一样在系统层面展开竞争",并表达了在经过同行评审的第三方基准测试(MLPerf、InferenceMax)出炉之前应避免下定论的审慎观点。

在日本国内,日经新闻、ASCII、HelenTech、GIGAZINE、AI综合研究所等媒体一致报道了"训练与推理使用不同芯片"这一结构性论点,以及"较Ironwood提升2.8倍/80%""每瓦性能2倍"这一系列数值,ASCII更是直接将谷歌主张的"将最尖端模型开发周期从数月缩短至数周"作为头条标题。GIGAZINE强调"每瓦性能2倍",暗示能源约束将成为下一个竞争轴。AI革命社等则补充了Broadcom = Sunfish、联发科 = Zebrafish的分工格局,以及这将围绕TSMC CoWoS产能引发新一轮紧张局势的观点。

客户与需求曲线 ——"自家服务器无法满足公司内部研究人员的需求"

第八代TPU的需求曲线,即便与历代相比也显得异乎寻常。最大客户Anthropic通过与Google签订的新合约,确保了最多100万颗芯片、5GW的计算容量;若再加上与AWS的追加合约,预计总规模将达到10GW。Anthropic首席财务官克里希纳·拉奥(Krishna Rao)公开表示"力争在2027年前实现年收入300亿美元(约4.6万亿日元)",而第八代TPU正是这一目标的重要支撑。Meta于2026年2月与Google签订了数十亿美元规模的多年期合约,据报道,到2027年将确保50万至80万颗芯片。Apple将TPU用于Siri的Gemini版后端,预计每年支出规模约为10亿美元(约1,550亿日元)。Citadel Securities将TPU用于其量化研究软件,美国能源部下属的17家国家实验室正在TPU上构建一个名为"AI Co-Scientist"的科学AI平台。最近的报道显示,连OpenAI也开始着手确保部分TPU容量。

作为需求过剩的佐证,TheNextWeb报道称:"Google将原本面向内部研究人员的TPU也优先供应给了Anthropic,结果导致内部Research团队不得不排队等候TPU。"美国银行(Bank of America)认为,考虑到对外销售的扩大以及Gemini 3的全面铺开,Broadcom的AI半导体营收在2026财年有望实现同比翻倍以上的增长,2027年则有望迈向1,000亿美元(约15.5万亿日元)的区间。预计大型科技公司2026年的AI基础设施投资总额将超过8,000亿美元(约124万亿日元),其中相当比例的份额正开始从Nvidia GPU向TPU、Trainium、Maia等定制ASIC转移,一场结构性变革正在拉开帷幕。

与英伟达的对立格局 —— 黄仁勋如何反驳

英伟达CEO黄仁勋在Dwarkesh Patel的播客中被问及对第八代TPU的看法时反驳道:"Anthropic是特殊案例,并非趋势。除了Anthropic之外,TPU增长的源泉究竟在哪里?100%依赖Anthropic。"黄仁勋还反复向谷歌和亚马逊发起挑战,称"应该在MLPerf和InferenceMax等公开基准测试中拿出结果",并表示"没有任何平台能在每总拥有成本性能上超越英伟达"。然而在分析师之间,与黄仁勋的强硬言论相反,IDC和Bernstein的预测正在流传——英伟达的推理市场份额可能从目前的90%以上下降至2028年的20〜30%,定制ASIC在推理市场的威胁已进入不可忽视的阶段。

不过谷歌自身也并未宣布"对英伟达全面开战"。在Cloud Next 2026上,谷歌明确表示将在同一Virgo架构上并行销售英伟达Vera Rubin NVL72实例,Thomas Kurian CEO强调"增加客户的选择是首要任务,英伟达仍然是重要的合作伙伴"。在硅谷风投圈中,"并非英伟达或TPU的二选一,而是根据每个工作负载选择最优硅片的多加速器时代"这一整理思路也已成为主流。谷歌并未将TPU完全对外销售,而是以通过Google Cloud访问为基本方式,这一点也被解读为"无意破坏英伟达的渠道经济"的信号。

未来12~18个月的观察要点

第一个观察点是计划于2026年下半年开始的一般可用(GA)的确切时机。Google仅表示"2026年下半年",根据掌握量产能力关键的台积电2nm CoWoS生产线的爬坡情况,可能会有所提前或推迟。Morgan Stanley预测"MediaTek的Zebrafish将按计划于2026年下半年进入量产",而HyperFRAME Research则注释称"全面铺开要等到台积电2nm进入正式量产的2027年下半年"。两者的差异,可以合理地视为Beta提供与正式GW级铺开之间的区别。

第二个观察点是将于2026年6~7月举行的MLPerf v5.0以及InferenceMax轮次。正如黄仁勋反复要求的那样,焦点在于Google是否会首次公开TPU 8t / 8i的第三方基准测试结果,如果公开,目前"绝对性能逊于Nvidia但成本效率胜出"的论点将被量化。与此同时,伴随Anthropic Claude 5 / Gemini 3 Pro发布而在TPU 8i上实测的推理成本与吞吐量,正成为媒体和投资者最为关注的事项。

第三个观察点是Blackstone-Google合资公司第一阶段(500MW)面向2027年投运的中期进展,以及紧随其后的第二、第三家TPU新云(Neocloud)的出现。许多硅谷VC正将"TPU系新云"作为新的投资主题加以挖掘,能否出现能够在TPU系再现CoreWeave和Lambda Labs在Nvidia系所享受的高速成长的运营商,备受关注。此外,多位相关人士透露,2026年秋季,Anthropic和Meta之外的第三、第四家超大客户(OpenAI、Microsoft,或xAI等)有可能公开基于TPU 8i的推理合同。

最后,作为长期观察点,可以列举2027年内"TPU 9"或同等下一代产品的发布。Broadcom预计将持有至2031年与Google的长期合同,持续进行设计与供应,MediaTek也据称将在2027年之前分阶段确保相当于12万~15万CoWoS晶圆的产能。Big Tech的2026年AI设备投资 8,000亿美元(约124万亿日元)将部分由"TPU 8世代的购买力"所支撑,到2027年这一规模很有可能扩大到超过1万亿美元(约超155万亿日元)的领域。第八代TPU真正的评价落定,将在与Nvidia Vera Rubin Ultra世代正面对撞的2026年末至2027年上半年,这将成为硅谷VC今后最应密切关注的里程碑。