谷歌新型半导体 TPU 8t、TPU 8i

谷歌在2026年4月22日的Cloud Next 2026上发布了第8代TPU，将此前一体化的TPU拆分为专注训练的"TPU 8t"与专注推理的"TPU 8i"两条产品线。前者由Broadcom、后者由MediaTek共同设计，两者均预计在台积电2nm级节点量产，相较Ironwood宣称训练性价比提升2.8倍、推理性价比提升1.8倍、每瓦性能提升2倍。本文将在重新梳理TPU是什么的基础上，多角度审视新款双芯片带来的技术冲击、硅谷VC对此的反应、主流媒体的论调，以及未来12〜18个月的里程碑。

什么是TPU

TPU（Tensor Processing Unit，张量处理单元）是谷歌为加速自家神经网络推理与训练而设计的专用ASIC（特定用途集成电路），它剥离了通用GPU所配备的可变流水线和光线追踪等与之无关的功能，将架构彻底聚焦于矩阵乘法运算（MatMul）和归约运算。初代TPU于2015年在公司内部投入使用，时任CEO桑达尔·皮查伊在2016年的Google I/O上首次对外公开其存在。此后，谷歌在TPU v2中搭载HBM并将其扩展用于训练，在v3中引入液冷，在v4和v5中通过光路开关（OCS）确立了3D环面（3D Torus）互连结构，并在第六代"Trillium"和第七代"Ironwood"中致力于大规模训练与高速推理的兼顾。

在设计层面，其特征体现在被称为矩阵运算单元（MXU）的脉动阵列、由HBM提供的超高带宽内存，以及将整个Pod视作一台逻辑机器的"纵向扩展互连结构（Scale-up Fabric）"。Nvidia GPU是通过NVLink与InfiniBand将各个独立节点捆绑在一起，而TPU则秉持将硬件一致性的共享内存空间巨型化、把单个作业整体容纳其中的理念，并与JAX和Pathways等谷歌自研软件栈一体化运作——这是它与其他公司ASIC最大的区别。SemiAnalysis的迪伦·帕特尔将其表述为"并非微架构层面，而是系统架构层面的优势"，并将其定位为谷歌云相对于Microsoft Azure和Amazon EC2在结构性总拥有成本上占据优势的源泉。

TPU 8t、TPU 8i的冲击 —— 第八代迎来的"分岔点"

第八代最大的争议点在于，Google首次将TPU拆分为一条产品线两款芯片。训练用的"TPU 8t"（内部代号 Sunfish）由Broadcom主导设计，由9,600颗芯片构成的超级Pod搭载2 PB的共享HBM与121 ExaFLOPs（FP4），相较Ironwood，训练性价比最高提升2.8倍。另一方面，面向推理及推理时推理（Reasoning）的"TPU 8i"（代号 Zebrafish）则由新合作伙伴MediaTek负责设计，由1,152颗芯片构成的Pod搭载288GB HBM与384MB片上SRAM（为上代的3倍），相较Ironwood将推理性价比改善了80%。两款芯片就单芯片的绝对算力而言，相对Nvidia Vera Rubin R200及AMD MI455X仍处于3比1的劣势区间，但Google主张，以Pod为单位乃至数据中心为单位计算的总拥有成本与吞吐量上，足以与之分庭抗礼甚至更胜一筹。

冲击的核心有三点。第一，Google实质上放弃了"通用AI芯片"这一概念。HyperFRAME Research将此评价为"对预训练与Agent大规模并行推理的负载特性已过度背离这一事实的隐性自认"，并指出Google已从混合优化转向专用化路线。第二，Broadcom的独占体制瓦解，MediaTek得以加入，以美国银行Vivek Arya为首的分析师团队估算，由此每颗TPU的ASP将从此前的5,000～6,000美元（约77万～93万日元）上扬至12,000～15,000美元（约186万～232万日元）。第三，Anthropic被定位为最多使用100万颗芯片的最大客户，Meta、经由Apple的Siri推理、Citadel Securities、美国能源部17所国家实验室，乃至OpenAI都已开始锁定TPU产能。专用化、双源供应、以及外部销售扩张这三股动向同时推进，正是这一点把Cloud Next 2026从"单纯的年度活动"推升为"AI基础设施市场的结构性拐点"。

技术深度解析 ― Boardfly与面料设计的革新

TPU 8t在继承传统3D Torus的同时，引入了FP4原生运算与TPUDirect RDMA。每颗芯片可发挥12.6 FP4 PFLOPs的算力，并从216GB的HBM3e以6,528GB/s的带宽供给数据。值得关注的是ICI（Inter-Chip Interconnect）升级至19.2Tbps，以及通过直连存储的TPUDirect Storage实现的10倍IO加速，这些都印证了Google所主张的"将单一作业的训练周期由数月缩短至数周"。此外，在Fabric层面，新一代"Virgo Network"以47Pbps的双向二分带宽连接超过134,000颗TPU 8t芯片，与Pathways相结合，可构建百万芯片规模的单一训练集群。配合光路交换（OCS）能够维持97%的"Goodput"利用率这一点，对于需要长期持续训练的基础模型开发而言，具有不可估量的价值。

TPU 8i的设计则更进一步。最大的结构性变更在于：摒弃了3D Torus，转而采用受2008年高基数（high-radix）研究启发、被命名为"Boardfly"的全新拓扑。在1,024芯片规模的域中进行比较，3D Torus中最远通信需要16跳，而Boardfly仅需7跳，即网络直径削减了56%。这对于Mixture-of-Experts模型或推理时推理（chain-of-thought）等需要不可预测的全对全通信的工作负载而言，具有决定性意义。此外，将Ironwood的SparseCore模块整体移除，替换为新设于核心Chiplet裸片上的Collectives Acceleration Engine（CAE），从而将自回归解码中的片上Collective延迟最高降低至原来的五分之一。Patrick Moorhead对此评价道："这是优化延迟而非带宽，是面向Agent时代的正确押注"。同时，两款芯片均采用Google自研的基于Arm的"Axion"作为主机CPU，并结合第四代液冷，在提升单机架热密度的同时将每瓦性能较前代提升了2倍。制造工艺据称采用TSMC的2nm级节点，但Google官方并未明确表态，亦有观点认为可能属于TSMC N3系列，因此此处仍需保留判断。

硅谷VC的反应——"刀已出鞘"

硅谷主流VC将TPU 8t / 8i的发布视为加速"从Nvidia占据市场99%的未来，迈向占据80%的未来"过渡的事件。由Andreessen Horowitz合伙人安吉尼·米达（Anjney Midha）主导的"Theory of Well"论点认为，在AI技术栈中最具持续性的价值并非应用层，而是"井（well）"——即掌控咽喉要道的基础设施层。a16z已公开宣布2025年累计募资150亿美元（约2.3万亿日元），其中17亿美元（约2,600亿日元）将投向AI基础设施。该公司近期备忘录中梳理道："Google推进自研TPU、Amazon推进Trainium / Inferentia、Microsoft推进Maia，这是一场为死守'井'位置而展开的战争，初创企业不应在此正面强攻。"换言之，a16z将TPU 8t / 8i的登场解读为重新确认自家投资组合不应押注于何处的信号。

Sequoia Capital与Founders Fund虽未发表官方评论，但业界媒体的采访均报道称，二者对Anthropic、xAI、Cohere、Mistral等基础模型企业的投资判断，正在大幅转向依赖"可获取的算力容量及其价格曲线"。Anthropic于2026年4月24日获得Google最高400亿美元（约6.2万亿日元）的追加投资及5吉瓦TPU容量，投后估值达到3,500亿美元（约54万亿日元）。紧接着其又与AWS签订5GW合约，合计锁定10GW算力容量，由Sequoia于2025年主导轮次的浮盈正在急速扩大。在Kleiner Perkins于2026年3月发布的35亿美元（约5,400亿日元）AI基金中，亦有报道指出其正在探索参与围绕TPU 8t的新型neocloud（Blackstone-Google合资项目等）的机会。

最具象征意义的动向是，Blackstone于2026年5月19日宣布向与Google的合资公司承诺50亿美元（约7,800亿日元）股权投资，并将于2027年启用500MW的TPU基础数据中心。严格来讲这属于私募股权而非VC的动作，但这也是硅谷VC圈首次意识到"在曾经一边倒倾向Nvidia系neocloud的世界中，TPU系neocloud首次作为对抗轴登场"的时刻。多位VC合伙人匿名表示："随着TPU 8t / 8i的发布，终于迎来了认真对Nvidia以外的选项进行尽职调查的时代。"这正在成为推动硅谷VC投资主题"算力获取去中心化"的催化剂。

各报刊及各网站的报道立场

彭博社的伊恩·金（Ian King）在4月22日的报道中将TPU 8t / 8i定位为"对Nvidia大本营迄今为止最严肃的挑战"，并将面向Anthropic的5GW合约与Blackstone合资公司的发布作为一组进行报道，总结称"华尔街首次理解到AI芯片竞争已不再是一骑绝尘的赛跑"。路透社的笔触则更为审慎，强调谷歌自身依然在同一Virgo架构上提供Nvidia GPU实例（Vera Rubin NVL72）这一事实，并提醒读者"这是互补而非完全替代"。《华尔街日报》聚焦于Broadcom与联发科的分工结构，报道称Broadcom股票的华尔街平均目标股价已上调至478美元（约7.4万日元），摩根士丹利的布莱恩·诺瓦克（Brian Nowak）于4月23日将目标股价从235美元（约3.6万日元）上调至258美元（约4万日元）。

科技专业媒体的论调略有不同。Tom's Hardware以"单芯片性能逊于Nvidia，但在规模化时的总拥有成本上实现反超"的框架呈现了详细的数据表，SemiAnalysis的迪伦·帕特尔（Dylan Patel）也在通讯中写道："微架构只是AI基础设施真实成本的一小部分，系统架构与部署灵活性才是本质所在。"Stratechery的本·汤普森（Ben Thompson）刊登了对谷歌云CEO托马斯·库里安（Thomas Kurian）的独家专访，评价称"谷歌将自身作为首位用户（customer zero）锤炼了十年的积累，终于结晶为可对外销售的产品"。另一方面，Moor Insights & Strategy的Patrick Moorhead将其定调为"TPU并非'迎战'Nvidia，而是像Apple Silicon一样在系统层面展开竞争"，并表达了在经过同行评审的第三方基准测试（MLPerf、InferenceMax）出炉之前应避免下定论的审慎观点。

在日本国内，日经新闻、ASCII、HelenTech、GIGAZINE、AI综合研究所等媒体一致报道了"训练与推理使用不同芯片"这一结构性论点，以及"较Ironwood提升2.8倍/80%""每瓦性能2倍"这一系列数值，ASCII更是直接将谷歌主张的"将最尖端模型开发周期从数月缩短至数周"作为头条标题。GIGAZINE强调"每瓦性能2倍"，暗示能源约束将成为下一个竞争轴。AI革命社等则补充了Broadcom = Sunfish、联发科 = Zebrafish的分工格局，以及这将围绕TSMC CoWoS产能引发新一轮紧张局势的观点。

客户与需求曲线 ——"自家服务器无法满足公司内部研究人员的需求"

第八代TPU的需求曲线，即便与历代相比也显得异乎寻常。最大客户Anthropic通过与Google签订的新合约，确保了最多100万颗芯片、5GW的计算容量；若再加上与AWS的追加合约，预计总规模将达到10GW。Anthropic首席财务官克里希纳·拉奥（Krishna Rao）公开表示"力争在2027年前实现年收入300亿美元（约4.6万亿日元）"，而第八代TPU正是这一目标的重要支撑。Meta于2026年2月与Google签订了数十亿美元规模的多年期合约，据报道，到2027年将确保50万至80万颗芯片。Apple将TPU用于Siri的Gemini版后端，预计每年支出规模约为10亿美元（约1,550亿日元）。Citadel Securities将TPU用于其量化研究软件，美国能源部下属的17家国家实验室正在TPU上构建一个名为"AI Co-Scientist"的科学AI平台。最近的报道显示，连OpenAI也开始着手确保部分TPU容量。

作为需求过剩的佐证，TheNextWeb报道称："Google将原本面向内部研究人员的TPU也优先供应给了Anthropic，结果导致内部Research团队不得不排队等候TPU。"美国银行（Bank of America）认为，考虑到对外销售的扩大以及Gemini 3的全面铺开，Broadcom的AI半导体营收在2026财年有望实现同比翻倍以上的增长，2027年则有望迈向1,000亿美元（约15.5万亿日元）的区间。预计大型科技公司2026年的AI基础设施投资总额将超过8,000亿美元（约124万亿日元），其中相当比例的份额正开始从Nvidia GPU向TPU、Trainium、Maia等定制ASIC转移，一场结构性变革正在拉开帷幕。

与英伟达的对立格局 —— 黄仁勋如何反驳

英伟达CEO黄仁勋在Dwarkesh Patel的播客中被问及对第八代TPU的看法时反驳道："Anthropic是特殊案例，并非趋势。除了Anthropic之外，TPU增长的源泉究竟在哪里？100%依赖Anthropic。"黄仁勋还反复向谷歌和亚马逊发起挑战，称"应该在MLPerf和InferenceMax等公开基准测试中拿出结果"，并表示"没有任何平台能在每总拥有成本性能上超越英伟达"。然而在分析师之间，与黄仁勋的强硬言论相反，IDC和Bernstein的预测正在流传——英伟达的推理市场份额可能从目前的90%以上下降至2028年的20〜30%，定制ASIC在推理市场的威胁已进入不可忽视的阶段。

不过谷歌自身也并未宣布"对英伟达全面开战"。在Cloud Next 2026上，谷歌明确表示将在同一Virgo架构上并行销售英伟达Vera Rubin NVL72实例，Thomas Kurian CEO强调"增加客户的选择是首要任务，英伟达仍然是重要的合作伙伴"。在硅谷风投圈中，"并非英伟达或TPU的二选一，而是根据每个工作负载选择最优硅片的多加速器时代"这一整理思路也已成为主流。谷歌并未将TPU完全对外销售，而是以通过Google Cloud访问为基本方式，这一点也被解读为"无意破坏英伟达的渠道经济"的信号。

未来12～18个月的观察要点

第一个观察点是计划于2026年下半年开始的一般可用（GA）的确切时机。Google仅表示"2026年下半年"，根据掌握量产能力关键的台积电2nm CoWoS生产线的爬坡情况，可能会有所提前或推迟。Morgan Stanley预测"MediaTek的Zebrafish将按计划于2026年下半年进入量产"，而HyperFRAME Research则注释称"全面铺开要等到台积电2nm进入正式量产的2027年下半年"。两者的差异，可以合理地视为Beta提供与正式GW级铺开之间的区别。

第二个观察点是将于2026年6~7月举行的MLPerf v5.0以及InferenceMax轮次。正如黄仁勋反复要求的那样，焦点在于Google是否会首次公开TPU 8t / 8i的第三方基准测试结果，如果公开，目前"绝对性能逊于Nvidia但成本效率胜出"的论点将被量化。与此同时，伴随Anthropic Claude 5 / Gemini 3 Pro发布而在TPU 8i上实测的推理成本与吞吐量，正成为媒体和投资者最为关注的事项。

第三个观察点是Blackstone-Google合资公司第一阶段（500MW）面向2027年投运的中期进展，以及紧随其后的第二、第三家TPU新云（Neocloud）的出现。许多硅谷VC正将"TPU系新云"作为新的投资主题加以挖掘，能否出现能够在TPU系再现CoreWeave和Lambda Labs在Nvidia系所享受的高速成长的运营商，备受关注。此外，多位相关人士透露，2026年秋季，Anthropic和Meta之外的第三、第四家超大客户（OpenAI、Microsoft，或xAI等）有可能公开基于TPU 8i的推理合同。

最后，作为长期观察点，可以列举2027年内"TPU 9"或同等下一代产品的发布。Broadcom预计将持有至2031年与Google的长期合同，持续进行设计与供应，MediaTek也据称将在2027年之前分阶段确保相当于12万~15万CoWoS晶圆的产能。Big Tech的2026年AI设备投资 8,000亿美元（约124万亿日元）将部分由"TPU 8世代的购买力"所支撑，到2027年这一规模很有可能扩大到超过1万亿美元（约超155万亿日元）的领域。第八代TPU真正的评价落定，将在与Nvidia Vera Rubin Ultra世代正面对撞的2026年末至2027年上半年，这将成为硅谷VC今后最应密切关注的里程碑。