LLM版Ajax？面向Google Gemma4的预读技术Multi-Token Prediction（MTP）公布。推理最高加速3倍

谷歌于2026年5月5日，针对开放权重LLM"Gemma 4"，以Apache 2.0许可证发布了可将推理速度最高提升3倍的辅助模型"Multi-Token Prediction（MTP）草稿器"。正如浏览器的Ajax通过预读改变了UX一样，MTP打破了"逐个生成token"的前提，通过成批预取未来的token，彻底改变了响应性。硅谷的VC将此定位为佐证"对推理层的投资论点"的标志性动向，对Inferact／Together AI／Fireworks AI等推理优化初创公司持续投入巨额资金

摘要

谷歌于2026年5月5日，针对开放权重LLM"Gemma 4"，以Apache 2.0许可证发布了可将推理速度最高提升3倍的辅助模型"Multi-Token Prediction（MTP）草稿器"。正如浏览器的Ajax通过预读改变了UX一样，MTP打破了"逐个生成token"的前提，通过成批预取未来的token，彻底改变了响应性。硅谷的VC将此定位为佐证"对推理层的投资命题"的标志性举措，巨额资金持续涌入Inferact／Together AI／Fireworks AI等推理优化初创企业。

新闻全貌：5月5日，谷歌将"预读"升级为标准配置

2026年5月5日，Google DeepMind通过官方博客《Accelerating Gemma 4: faster inference with multi-token prediction drafters》发布了面向Gemma 4家族的"Multi-Token Prediction（MTP）起草器"。Gemma 4于同年4月2日在Google Open Source Blog上以《Gemma 4: Expanding the Gemmaverse with Apache 2.0》为题公开发布，上线仅数周便突破6000万次下载，是当前势头最猛的开放权重LLM。MTP作为其"下一手棋"，承担的角色是：无需追加训练、无需追加硬件，就能让已经在运行的Gemma 4最高提速3倍。

公开的辅助模型组覆盖了Gemma 4的全部4种规格（面向移动端的E2B、面向边缘的E4B、面向消费级GPU的26B A4B Mixture-of-Experts、面向工作站的31B Dense）。已在Hugging Face、Kaggle上开始分发，Hugging Face Transformers、MLX、vLLM、SGLang、Ollama、Google AI Edge Gallery的LiteRT-LM等主流推理运行时均已实现"Day 0"支持。针对Google官方发布，vLLM在官方X上宣布"🚀 Day-0 MTP support for Gemma4 now available at vLLM"，并同时公开了面向Hopper及Blackwell的专用Docker镜像（vllm/vllm-openai:gemma4-0505-cu129／cu130）。

在数字解读上，Google强调"最高3倍"，而进行一手采访的海外媒体则审慎地传达了更现实的区间。Decrypt、MarkTechPost、Eastern Herald、The Decoder、claypier等媒体报道称，最高3倍是在NVIDIA RTX PRO 6000上以最优批量大小运行26B MoE对话任务的"最佳案例"，在消费级GPU（RTX 4090级别）上为1.8〜2.5倍，在Apple Silicon（M3 Max／M4 Max级别）上为1.6〜2.2倍，落在更朴素但实用的数字区间。

称之为"LLM版Ajax"的理由：通过预读与验证颠覆时间轴

在介绍技术要点之前，我想先在更高层次上做一些抽象说明。为什么标题里要称之为"LLM版的Ajax"。Ajax（Asynchronous JavaScript and XML）是一项改变用户体验的技术——它让浏览器无需等待整个页面重新加载，而是异步预读、局部更新用户可能请求的部分。MTP给LLM推理带来的本质变化与此类似。也就是说，采取的是这样一种思路：在上游的重型模型尚未确定"用户真正需要的token是什么"之前，让轻量级模型先把若干个token生成出来。

常规的Transformer推理是一种被称为自回归（autoregressive）的机制，每生成一个token，就要从内存中读出数十亿到数百亿规模的参数。GPU的运算单元本身明明还有余力，却由于内存带宽成为瓶颈而被闲置。Google Research在2022年以Yaniv Leviathan、Matan Kalman、Yossi Matias等人的名义发表的论文《Fast Inference from Transformers via Speculative Decoding》（被ICML 2023接收），正是从这一观察出发的。该论文展示了用60M参数的小型T5为T5-XXL（11B）进行草稿生成，"在完全不改变输出分布的前提下"实现2～3倍的加速，从此作为行业标准的加速层固定下来。

MTP正是这一脉络的最新形态。Gemma 4的MTP草稿器是由"Q-only attention"构成的轻量级4层模型，其重要巧思在于共享目标模型（本体）的KV缓存。具体的机制如下所示。首先，草稿器在与本体共享最终层激活和输入嵌入表的同时，连续预读未来的N个（通常为4～8个）token。本体Gemma 4对这N个token进行汇总，通过一次前向传播并行进行验证。本体判断为"与自己的预测一致"的token会被整段采纳，在最早出现分歧的位置截断草稿，然后由本体自己输出一个正确的token（到这一步至少能确保获得1个token，因此不会白白浪费）。之后草稿器再重新开始预读，如此高速循环。

换成具体例子会更容易理解。例如给出"东京的天气是"这一提示后，草稿器会预读"晴朗""、明天是""阴""转雨"这样的4个token。本体原本需要进行4次前向传播，而现在只需1次传播就能一次性评估这4个候选。如果前3个token都一致，那么3个token＋本体自身修正的1个token＝合计4个token就几乎在一步之内被确定下来。这就是Google官方博客中"the target model accepts the entire sequence in a single forward pass — and even generates an additional token of its own in the process"（本体在一次前向传播中整体受理该序列，并在此过程中额外生成自己的1个token）这句话所表达的含义。

需要注意的是，这并不是"以牺牲精度换取加速"。由于本体最终一定会进行验证，因此输出分布在数学上与不使用MTP时保持完全相同。正如Hugging Face的官方博客《Welcome Gemma 4》明确写到的"Same outputs as target model with no quality loss and no changes to reasoning behavior"那样，这是一种"无损（lossless）"的加速层，这一点与量化或蒸馏有着决定性的不同。

进一步详细解读"选秀者在关注什么"

对初学者而言，难以理解的直观部分大概是：为什么小型草稿器（drafter）能够从与主体相同的概率分布中抽取出"几乎正确"的答案。这背后有两个实现上的关键。

第一个是"嵌入表共享"。草稿器引用与Gemma 4主体相同的输入嵌入表。"dog""猫""东京"等token都在与主体完全相同的向量空间中处理，因此词汇上的偏差在原理上不会发生。第二个是"目标激活的利用"。草稿器将主体最终层输出的激活向量作为输入接收，并用轻量级的4层Transformer生成未来N个token的预测。也就是说，主体已经对"接下来会出现什么"持有相当强的线索，而草稿器以继承这些线索的形式进行预读，因此在上下文中不易偏离。

在Gemma 4的情况下，特别是面向边缘端的E2B（实效2.3B）/E4B（实效4.5B）模型，还额外引入了一项名为"embedder clustering"的巧思，即从256K个词汇中筛选出在上下文中"可能出现"的4K个聚类。借此，即使在智能手机这类内存与算力受限的环境中，草稿器的logit计算也不会成为瓶颈。在Google AI for Developers的文档《Speed-up Gemma 4 with Multi-Token Prediction》中，记载了草稿器"the model groups similar tokens into clusters"（将相似的token归并为聚类）。

token接受率（acceptance rate）也是重要的指标。根据buildfastwithai公司的验证，Gemma 4 MTP草稿器在对话任务中达到70〜90%，在代码生成任务中则呈现较低的数值。这是因为代码虽然随机性较低，但长距离依赖（数十个token之外的闭包或语法）较多，仅靠草稿器无法完全预测的场景增多。实际上，在vLLM上运行Gemma 4 MTP时，开发者博客dasroot和kaitchup等介绍了如下运用方式：将推荐参数"num_assistant_tokens"在代码用途下设为3〜4，对话用途下设为5〜8，长文散文用途下设为10〜15，并通过"heuristic"调度根据接受率进行动态调整。

DeepSeek、Meta、EAGLE的传承：MTP是"下一个主战场"

正如Google官方博客所述，MTP式的方法并非突发性的突破，而是被定位为累积研究脉络中的最新一步。Meta于2024年4月以Fabian Gloeckle、Badr Youbi Idrissi、Baptiste Rozière、David Lopez-Paz、Gabriel Synnaeve等人的名义发布了《Better & Faster Large Language Models via Multi-token Prediction》（arXiv:2404.19737），表明在训练时通过独立的输出头预测"接下来的N个token"，使得13B模型在HumanEval上比现有的下一token预测模型高出12%、在MBPP上高出17%的分数，且同时预测4个token的模型在推理时最快可提速3倍。DeepSeek在其V3中采用了这种MTP，使用n=4的预测头进行了14.8万亿token的预训练，并在ArXiv技术报告中记载，推理时MTP1的接受率超过80%，实现了约1.8倍的生成吞吐量提升。

在训练时将MTP纳入目标函数的DeepSeek型，与仅在推理时附加辅助起草器（drafter）的Google型，虽然名称相似，但方法却有所不同。就Google Gemma 4而言，其本体的训练本身是以标准的下一token预测完成的，之后再单独训练并安装轻量级起草器。由此，对于已经训练完成的31B Dense或26B MoE，无需额外重新训练即可后加式地实现提速，这种运营上的灵活性非常大。

此外，作为相关技术，还有Tianle Cai等人的"MEDUSA"（将多个预测头直接嫁接在本体上的方法）、Yuhui Li等人的"EAGLE-3"（融合早期、中期、后期三层特征的外部起草头）、"Lookahead Decoding"（用2D窗口并行生成n-gram）等。根据SyncSoft.AI的融合解说，EAGLE-3在聊天类场景中保持0.75〜0.85的接受率，相比MEDUSA和Lookahead分别能多获得1.7〜2.1倍、1.5〜1.6倍的附加速度。事实上，在Gemma 4官方MTP发布之前，社区已经先行训练了EAGLE-3起草器，并以thoughtworks/Gemma-4-31B-Eagle3、RedHatAI/gemma-4-31B-it-speculator.eagle3的名义公开。Eastern Herald和claypier的文章也指出，Google此次的官方发布可定位为"终于以官方形式将Gemma 4首次权重公开时被删除的MTP头归还给了社区"。

基准测试解读：3倍出现在哪里，现实又是几倍

各家媒体一齐关注的是Google提出的"最高3倍"这一数字的合理性。关于这一点,综合多个信息源对比,目前已经比较清晰。

在高端工作站环境中,数据表现良好。NVIDIA Developer Forum上发布的在NVIDIA DGX Spark／GB10上的测试结果显示,将Gemma 4 26B A4B-it(FP8量化)与γ=4的MTP相结合,单请求下记录到108.78 tokens/sec(相对于无MTP基线的40.85 tokens/sec,为2.66倍)。在并发8请求下,聚合吞吐量达到674 tokens/sec,据报告从单个用户视角看仍维持约2倍于以往的水平,而作为整台服务器则扩展至16.5倍。vLLM方面的PR #41745(由Luciano Martins发起,2026年5月6日合并)的验证数据中也报告了在H100上E2B为130%、E4B为178%、以及31B Dense为319%的大幅吞吐量改善。

另一方面,在笔记本电脑级别和MacBook上的体验则要更为保守。正如Decrypt所提到的,在Apple Silicon上批大小为1(即个人用户的聊天用途)时,Gemma 4 26B MoE仅停留在1.5至1.7倍左右。这是因为MoE(Mixture-of-Experts)架构在设计上每个token都会激活不同的专家,因此在drafter预读的token序列的每个位置都必须加载不同的专家权重,导致内存带宽的节省效果减弱。如果将批大小提升至4至8并捆绑并行请求,则可恢复至约2.2倍。而Dense版的31B模型由于没有此类路由上的限制,即使在Apple Silicon上也更容易稳定地发挥出2倍左右的效果——这是Hugging Face博客与MLX社区达成一致的看法。

Google官方博客与MarkTechPost共同指出的另一点是"前提是instruction-tuned(-it)模型,而非base model"。在AI-Muninn的实机验证中,有报告称给base model加上drafter反而会使速度降至0.61倍,这是Google官方公告中并未着重强调的注意事项。

硅谷VC的判断：坚信"推理层"是下一个主战场

硅谷的VC圈并未将谷歌此次动作视为单一的产品更新，而是将其解读为"推理层（inference layer）"这一新兴市场类别正在走向成熟的信号。Andreessen Horowitz（a16z）的Guido Appenzeller发布的《Welcome to LLMflation — LLM inference cost is going down fast》报告以数据表明，同等性能的LLM推理成本正以每年10倍的速度下降，2021年11月每百万tokens 60美元的GPT-3级别成本，到2025年时已通过Llama 3.2 3B降至每百万tokens 0.06美元（3年下降1000倍），并将"通过软件优化降低计算与内存带宽需求"列为其六大主因之一。MTP正是这种"通过软件优化改善带宽"的代表性选手。

为这一论点提供资金佐证的是：2026年1月，由vLLM的核心维护者团队（Simon Mo、Woosuk Kwon、Kaichao You、Roger Wang）创立的Inferact，在a16z与Lightspeed Venture Partners联合领投下完成1.5亿美元（约225亿日元）种子轮融资，并以8亿美元（约1200亿日元）估值正式发布。出资方还包括Sequoia Capital、Altimeter Capital、Redpoint Ventures以及Databricks Ventures。据TechCrunch报道，a16z明确表示其投资论点为："仅靠加购H100，无法突破GPU利用率30～40%的瓶颈。能够释放剩余70%闲置算力的，正是软件层。" Inferact正在尝试商业化的vLLM，恰好就是刚刚为Gemma 4 MTP实现Day 0支持的那个项目，论点与现实产品完美契合。

同样受到投资者热切关注的，还有推理云服务商Together AI与Fireworks AI。Together AI于2025年2月在General Catalyst与Prosperity7联合领投下完成3.05亿美元（约457.5亿日元）B轮融资，估值一举跃升至33亿美元（约4950亿日元）。该公司官方表示"通过组合投机式解码、量化与FP8内核以实现性能突破"，已为将MTP系草稿模型快速集成至自有推理平台做好了准备。Fireworks AI则于2025年10月以40亿美元（约6000亿日元）估值完成2.5亿美元（约375亿日元）C轮融资。根据Sacra的分析，该公司ARR于2026年2月达到3.15亿美元（约472.5亿日元），同比增速高达416%。

在Y Combinator的《Summer 2026 Requests for Startups》中，普通合伙人Diana Hu明确征募"专用于Agent循环的芯片"。她表示："当前GPU在Agent工作负载（循环、工具调用、分支、回溯、长期上下文保持）下利用率只有30～40%。我们想要的是一款专为模型间快速上下文切换、原生投机式解码、跨整个执行图的KV缓存而设计的芯片。" 来自硬件侧的呼应也已显现。MTP正是其中"原生投机式解码"的核心技术。

Sequoia Capital于2026年4月宣布面向AI／后期阶段投资设立70亿美元（约1.05万亿日元）的扩张型基金，并在其报告《AI in 2026: A Tale of Two AIs》《2026: This is AGI》中援引IDC的预测——Agent时代的推理需求至2027年将膨胀1000倍——指出"推理成本的结构性下降与需求爆发将同步推进"。综合Bloomberg与finsmes的报道，除了专注推理优化的Inferact与Fireworks AI之外，Sequoia还在种子轮至B轮区间内积极投资以销售MTP核心技术（投机式解码）为业务形态的初创公司（如Pipeshift等）。

对企业的影响也开始以数字形式显现。AICC报告称："截至2026年4月，企业实际有效token单价（混合）已降至每百万tokens 6.07美元，较一年前的18.40美元下降了67%。" Fortune Business Insights预测，AI推理市场规模将从2025年的1037.3亿美元（约15.6万亿日元），增至2026年的1178亿美元（约17.7万亿日元），并于2034年达到3126.4亿美元（约46.9万亿日元）。在边缘AI市场方面，Grand View Research预测将从2025年的249.1亿美元（约3.7万亿日元）→2026年的299.8亿美元（约4.5万亿日元）→2033年的1186.9亿美元（约17.8万亿日元，CAGR 21.7%），而此次发布的、面向边缘端轻量化的E2B／E4B搭载MTP的产品，正处于这条曲线的中段，将成为强劲的顺风。

报道的基调：“无损3倍”的出处与冷静分析

各家媒体的报道方式存在微妙的浓淡差异。Eastern Herald、MarkTechPost、AIToolly、Pulse2.0、Neuronad大体上以直接附和谷歌官方"3倍提速、品质无损"信息的基调进行报道。与此相对，The Decoder（Heise系）、Decrypt、claypier、buildfastwithai等偏技术向的媒体则强调，3倍只是"特定硬件、特定批次大小、特定工作负载"下的上限，在实际环境中1.7〜2.2倍才是"应有的预期值"。在Hacker News（item 48024540）的讨论串中，资深开发者们贡献了大量精准的解读，例如"这归根结底等同于针对自己预测的未来路径进行自我批处理""是一种在内存带宽成为瓶颈的GPU上填补运算单元闲置时间的机制"等，对Gemma 4令牌效率给予赞赏的声音，与认为其在代码生成和复杂工具调用方面相较Claude或GPT略逊一筹的冷静评价并列出现。

Reddit r/LocalLLaMA社区的反响同样值得关注。据Startup Fortune报道，5月5日发布当天该subreddit在3小时内汇集了463个upvote／128条comment，当日内在llama.cpp、Ollama、vLLM、LM Studio上的运行验证陆续被报告。"在同样硬件上本地推理变得如此之快，其冲击力堪比DeepSeek V3引入训练时MTP以来的首次""与其说这是一款新模型的发布，不如说是本地推理走向实用化的tipping point级动向"——此类评价占据了主导地位。

日语圈的报道目前仍较为有限，但主要技术媒体已开始通过谷歌官方博客的翻译进行报道，尤其在边缘/本地部署的语境下，意识到"Pixel TPU及Apple Silicon上的端侧智能体实用化"的解读正在增加。谷歌Developers Blog同步发布的《Bring state-of-the-art agentic skills to the edge with Gemma 4》中，介绍了将Agent Skills这一新功能与之结合、由Gemma 4 E2B／E4B在完全离线状态下运行多步骤自主智能体的运营实例，Tris Warkentin先生（谷歌DeepMind产品负责人）在X（原Twitter）上发文称"本地AI体验从这里才真正开始"。

影响的范围：聊天、智能体以及设备内AI

从技术角度来看，MTP本质上发挥作用的场景是"内存带宽成为瓶颈、运算单元处于闲置状态"的局面。这尤其直接命中以下三种用例。

其一是长文本的连续生成，以及摘要、翻译之类输出较长的连串聊天任务。让AI整篇撰写博客文章、整理会议纪要、生成长篇演示文稿草稿等场景下，体感速度真的会提升一倍以上。其二是语音接口。在语音合成流程中，来自LLM的响应文本生成成为延迟关键路径的领域，响应的起始头部在体感上可缩短三成至一半。Google AI Edge Gallery的发布说明以及LiteRT-LM文档中，明确以数字提及"在移动GPU上解码速度提升2倍以上"，Pixel和Android端的语音、对话应用的实现有可能一举推进。

其三，是硅谷VC将其定位为2026年最大主题的"Agent工作负载"。正如Sequoia宣告"2026 is the year of long-horizon agents"、Y Combinator的Diana Hu女士征集"Agent循环专用芯片"所象征的那样，在包含工具调用、分支、回溯的数十步循环中，LLM调用的延迟会累积。若单次调用提速2倍，10步的Agent在体感上会感觉快5～8倍。此外，若能在Drafter、主体、各步骤之间共享KV缓存，便可抑制上下文的重新加载。将其与Anthropic在2026年5月新闻中推出的"Claude Opus 4.6 Fast Mode"实现2.5倍吞吐量，以及OpenAI的GPT-5.3-Codex提速25%等并列来看，便能看到整个行业正同时收敛于"以更快、更便宜的方式输出同等智能的专用工艺"。

VC视角下的风险与注意事项：并非人人都能享受到3倍收益

从硅谷VC的视角来看，MTP的普及存在三个尚未解决的问题。

第一，硬件依赖的不均衡。MTP的效果强烈依赖于内存带宽与计算密度的比率，因此在NVIDIA H100／RTX PRO 6000以及Apple Silicon的高端机型上能获得显著收益，而在Raspberry Pi 5等真正的低端设备，以及内存层级较浅的微控制器上效果有限。根据LiteRT-LM文档，Raspberry Pi 5上Gemma 4 E2B的解码在CPU上为7.6 tokens/sec，而在Qualcomm Dragonwing IQ8的NPU上可提升至31 tokens/sec。坦率地说，MTP在NPU上能发挥到何种程度，目前仍取决于各SoC厂商的实现。当投资人审视"On-Device AI"初创公司时，需要意识到硬件选型与MTP的契合度会对数字产生重大影响。

第二，代码生成工作负载下的精度权衡。根据AI-Muninn和kaitchup的验证，在代码生成任务中起草器（drafter）的接受率会下降，无用的投机计算会增加，因此相对于最佳情况下的3倍加速会有较大缩水。Anthropic Claude Code、GitHub Copilot、Cursor、Replit Agent这类代码辅助产品，从MTP获得的收益可能不像对话类产品那样直接。VC在该领域进行尽职调查时，确认基准测试是否过于偏重聊天场景的重要性正在上升。

第三，生态系统标准化的竞争。Google官方的"Gemma 4 MTP Drafter"，以及社区发起的EAGLE-3、MEDUSA、Lookahead、DeepSeek式训练时MTP等多个流派正在并行发展，而推理运行时一侧（vLLM、SGLang、MLX、llama.cpp、TensorRT-LLM）将哪一种作为"一等公民"加以优待，可能会改变势力格局。vLLM在Day 0就优先支持了Google的drafter，这暗示了Google×vLLM×Inferact同盟关系的存在，从解读a16z投资组合战略的角度来看也是一个值得关注的动向。

何时会发生什么：未来6至18个月的路线图

作为近期动向，首先在2026年5至6月，vLLM v0.20.x系列的重大版本发布预计将把Gemma 4 MTP纳入稳定版，从GitHub Issue #42005和PR #41745的讨论来看，已达到在Hopper和Blackwell两个平台上均提供官方Docker镜像的阶段。年内MLX和llama.cpp上的MTP预计也将达到生产级品质，kaitchup在博客中预告"llama.cpp上的MTP将从测试版升级到正式发布版"。

中期来看，正如Sequoia Capital将2026年形容为"a year of delays"那样，数据中心扩建的延迟与AGI时间表的推迟相互碰撞，推理成本削减的重要性面向2027年将进一步增加。基于IDC的"到2027年推理需求将增长1000倍"的预测，像MTP这样"用同样的硬件处理更多任务"的工艺，作为对GPU供应制约的结构性回应具有强烈意义。Gartner更进一步预测，到2030年，对GenAI业者而言，1万亿参数LLM的推理成本将比2025年下降90%以上。

作为长期伏笔，DeepSeek V4（传闻于2026年下半年推出的下一代模型，空间、时间、模态的三维注意力机制备受讨论）、Meta Llama 5、xAI Grok 5、Mistral Large下一版本等所有前沿模型候选，"从设计阶段就将MTP或其衍生形态纳入"正逐渐成为既定方针。NVIDIA在官方技术博客上推出"DeepSeek V4 with NVIDIA Blackwell"，展示了将Blackwell世代张量核心针对投机性解码进行优化的趋势。如果Y Combinator正在招募的"代理循环专用芯片"初创公司进入市场，MTP的红利将从硬件与软件两方面被放大。

对硅谷的VC而言，这次Google MTP的发布与其说是"对Gemma 4本身的追加投入"，不如说是被视为Google对他们自2024年以来持续押注的"推理优化层"论点的有力背书。a16z的LLMflation报告、对Inferact的225亿日元种子投资、对Together AI和Fireworks AI的巨额追加投资，以及Sequoia Capital规模达1万亿日元的新基金，无一不是建立在"模型训练的华丽赢家与推理实施的低调但庞大的赢家是不同的"这一逻辑之上的。MTP正是那种"低调但有效的工艺"的象征，由于在Gemma 4这一易于访问的开放权重模型上任何人都能进行验证，从而一举将推理层市场的存在可视化——这便是截至2026年5月时点的总结。