摘要
谷歌于2026年5月5日,针对开放权重LLM"Gemma 4",以Apache 2.0许可证发布了可将推理速度最高提升3倍的辅助模型"Multi-Token Prediction(MTP)草稿器"。正如浏览器的Ajax通过预读改变了UX一样,MTP打破了"逐个生成token"的前提,通过成批预取未来的token,彻底改变了响应性。硅谷的VC将此定位为佐证"对推理层的投资命题"的标志性举措,巨额资金持续涌入Inferact/Together AI/Fireworks AI等推理优化初创企业。
新闻全貌:5月5日,谷歌将"预读"升级为标准配置
2026年5月5日,Google DeepMind通过官方博客《Accelerating Gemma 4: faster inference with multi-token prediction drafters》发布了面向Gemma 4家族的"Multi-Token Prediction(MTP)起草器"。Gemma 4于同年4月2日在Google Open Source Blog上以《Gemma 4: Expanding the Gemmaverse with Apache 2.0》为题公开发布,上线仅数周便突破6000万次下载,是当前势头最猛的开放权重LLM。MTP作为其"下一手棋",承担的角色是:无需追加训练、无需追加硬件,就能让已经在运行的Gemma 4最高提速3倍。
公开的辅助模型组覆盖了Gemma 4的全部4种规格(面向移动端的E2B、面向边缘的E4B、面向消费级GPU的26B A4B Mixture-of-Experts、面向工作站的31B Dense)。已在Hugging Face、Kaggle上开始分发,Hugging Face Transformers、MLX、vLLM、SGLang、Ollama、Google AI Edge Gallery的LiteRT-LM等主流推理运行时均已实现"Day 0"支持。针对Google官方发布,vLLM在官方X上宣布"🚀 Day-0 MTP support for Gemma4 now available at vLLM",并同时公开了面向Hopper及Blackwell的专用Docker镜像(vllm/vllm-openai:gemma4-0505-cu129/cu130)。
在数字解读上,Google强调"最高3倍",而进行一手采访的海外媒体则审慎地传达了更现实的区间。Decrypt、MarkTechPost、Eastern Herald、The Decoder、claypier等媒体报道称,最高3倍是在NVIDIA RTX PRO 6000上以最优批量大小运行26B MoE对话任务的"最佳案例",在消费级GPU(RTX 4090级别)上为1.8〜2.5倍,在Apple Silicon(M3 Max/M4 Max级别)上为1.6〜2.2倍,落在更朴素但实用的数字区间。
称之为"LLM版Ajax"的理由:通过预读与验证颠覆时间轴
在介绍技术要点之前,我想先在更高层次上做一些抽象说明。为什么标题里要称之为"LLM版的Ajax"。Ajax(Asynchronous JavaScript and XML)是一项改变用户体验的技术——它让浏览器无需等待整个页面重新加载,而是异步预读、局部更新用户可能请求的部分。MTP给LLM推理带来的本质变化与此类似。也就是说,采取的是这样一种思路:在上游的重型模型尚未确定"用户真正需要的token是什么"之前,让轻量级模型先把若干个token生成出来。
常规的Transformer推理是一种被称为自回归(autoregressive)的机制,每生成一个token,就要从内存中读出数十亿到数百亿规模的参数。GPU的运算单元本身明明还有余力,却由于内存带宽成为瓶颈而被闲置。Google Research在2022年以Yaniv Leviathan、Matan Kalman、Yossi Matias等人的名义发表的论文《Fast Inference from Transformers via Speculative Decoding》(被ICML 2023接收),正是从这一观察出发的。该论文展示了用60M参数的小型T5为T5-XXL(11B)进行草稿生成,"在完全不改变输出分布的前提下"实现2~3倍的加速,从此作为行业标准的加速层固定下来。
MTP正是这一脉络的最新形态。Gemma 4的MTP草稿器是由"Q-only attention"构成的轻量级4层模型,其重要巧思在于共享目标模型(本体)的KV缓存。具体的机制如下所示。首先,草稿器在与本体共享最终层激活和输入嵌入表的同时,连续预读未来的N个(通常为4~8个)token。本体Gemma 4对这N个token进行汇总,通过一次前向传播并行进行验证。本体判断为"与自己的预测一致"的token会被整段采纳,在最早出现分歧的位置截断草稿,然后由本体自己输出一个正确的token(到这一步至少能确保获得1个token,因此不会白白浪费)。之后草稿器再重新开始预读,如此高速循环。
换成具体例子会更容易理解。例如给出"东京的天气是"这一提示后,草稿器会预读"晴朗""、明天是""阴""转雨"这样的4个token。本体原本需要进行4次前向传播,而现在只需1次传播就能一次性评估这4个候选。如果前3个token都一致,那么3个token+本体自身修正的1个token=合计4个token就几乎在一步之内被确定下来。这就是Google官方博客中"the target model accepts the entire sequence in a single forward pass — and even generates an additional token of its own in the process"(本体在一次前向传播中整体受理该序列,并在此过程中额外生成自己的1个token)这句话所表达的含义。
需要注意的是,这并不是"以牺牲精度换取加速"。由于本体最终一定会进行验证,因此输出分布在数学上与不使用MTP时保持完全相同。正如Hugging Face的官方博客《Welcome Gemma 4》明确写到的"Same outputs as target model with no quality loss and no changes to reasoning behavior"那样,这是一种"无损(lossless)"的加速层,这一点与量化或蒸馏有着决定性的不同。
进一步详细解读"选秀者在关注什么"
对初学者而言,难以理解的直观部分大概是:为什么小型草稿器(drafter)能够从与主体相同的概率分布中抽取出"几乎正确"的答案。这背后有两个实现上的关键。
第一个是"嵌入表共享"。草稿器引用与Gemma 4主体相同的输入嵌入表。"dog""猫""东京"等token都在与主体完全相同的向量空间中处理,因此词汇上的偏差在原理上不会发生。第二个是"目标激活的利用"。草稿器将主体最终层输出的激活向量作为输入接收,并用轻量级的4层Transformer生成未来N个token的预测。也就是说,主体已经对"接下来会出现什么"持有相当强的线索,而草稿器以继承这些线索的形式进行预读,因此在上下文中不易偏离。
在Gemma 4的情况下,特别是面向边缘端的E2B(实效2.3B)/E4B(实效4.5B)模型,还额外引入了一项名为"embedder clustering"的巧思,即从256K个词汇中筛选出在上下文中"可能出现"的4K个聚类。借此,即使在智能手机这类内存与算力受限的环境中,草稿器的logit计算也不会成为瓶颈。在Google AI for Developers的文档《Speed-up Gemma 4 with Multi-Token Prediction》中,记载了草稿器"the model groups similar tokens into clusters"(将相似的token归并为聚类)。
token接受率(acceptance rate)也是重要的指标。根据buildfastwithai公司的验证,Gemma 4 MTP草稿器在对话任务中达到70〜90%,在代码生成任务中则呈现较低的数值。这是因为代码虽然随机性较低,但长距离依赖(数十个token之外的闭包或语法)较多,仅靠草稿器无法完全预测的场景增多。实际上,在vLLM上运行Gemma 4 MTP时,开发者博客dasroot和kaitchup等介绍了如下运用方式:将推荐参数"num_assistant_tokens"在代码用途下设为3〜4,对话用途下设为5〜8,长文散文用途下设为10〜15,并通过"heuristic"调度根据接受率进行动态调整。
DeepSeek、Meta、EAGLE的传承:MTP是"下一个主战场"
正如Google官方博客所述,MTP式的方法并非突发性的突破,而是被定位为累积研究脉络中的最新一步。Meta于2024年4月以Fabian Gloeckle、Badr Youbi Idrissi、Baptiste Rozière、David Lopez-Paz、Gabriel Synnaeve等人的名义发布了《Better & Faster Large Language Models via Multi-token Prediction》(arXiv:2404.19737),表明在训练时通过独立的输出头预测"接下来的N个token",使得13B模型在HumanEval上比现有的下一token预测模型高出12%、在MBPP上高出17%的分数,且同时预测4个token的模型在推理时最快可提速3倍。DeepSeek在其V3中采用了这种MTP,使用n=4的预测头进行了14.8万亿token的预训练,并在ArXiv技术报告中记载,推理时MTP1的接受率超过80%,实现了约1.8倍的生成吞吐量提升。
在训练时将MTP纳入目标函数的DeepSeek型,与仅在推理时附加辅助起草器(drafter)的Google型,虽然名称相似,但方法却有所不同。就Google Gemma 4而言,其本体的训练本身是以标准的下一token预测完成的,之后再单独训练并安装轻量级起草器。由此,对于已经训练完成的31B Dense或26B MoE,无需额外重新训练即可后加式地实现提速,这种运营上的灵活性非常大。
此外,作为相关技术,还有Tianle Cai等人的"MEDUSA"(将多个预测头直接嫁接在本体上的方法)、Yuhui Li等人的"EAGLE-3"(融合早期、中期、后期三层特征的外部起草头)、"Lookahead Decoding"(用2D窗口并行生成n-gram)等。根据SyncSoft.AI的融合解说,EAGLE-3在聊天类场景中保持0.75〜0.85的接受率,相比MEDUSA和Lookahead分别能多获得1.7〜2.1倍、1.5〜1.6倍的附加速度。事实上,在Gemma 4官方MTP发布之前,社区已经先行训练了EAGLE-3起草器,并以thoughtworks/Gemma-4-31B-Eagle3、RedHatAI/gemma-4-31B-it-speculator.eagle3的名义公开。Eastern Herald和claypier的文章也指出,Google此次的官方发布可定位为"终于以官方形式将Gemma 4首次权重公开时被删除的MTP头归还给了社区"。
基准测试解读:3倍出现在哪里,现实又是几倍
各家媒体一齐关注的是Google提出的"最高3倍"这一数字的合理性。关于这一点,综合多个信息源对比,目前已经比较清晰。
在高端工作站环境中,数据表现良好。NVIDIA Developer Forum上发布的在NVIDIA DGX Spark/GB10上的测试结果显示,将Gemma 4 26B A4B-it(FP8量化)与γ=4的MTP相结合,单请求下记录到108.78 tokens/sec(相对于无MTP基线的40.85 tokens/sec,为2.66倍)。在并发8请求下,聚合吞吐量达到674 tokens/sec,据报告从单个用户视角看仍维持约2倍于以往的水平,而作为整台服务器则扩展至16.5倍。vLLM方面的PR #41745(由Luciano Martins发起,2026年5月6日合并)的验证数据中也报告了在H100上E2B为130%、E4B为178%、以及31B Dense为319%的大幅吞吐量改善。
另一方面,在笔记本电脑级别和MacBook上的体验则要更为保守。正如Decrypt所提到的,在Apple Silicon上批大小为1(即个人用户的聊天用途)时,Gemma 4 26B MoE仅停留在1.5至1.7倍左右。这是因为MoE(Mixture-of-Experts)架构在设计上每个token都会激活不同的专家,因此在drafter预读的token序列的每个位置都必须加载不同的专家权重,导致内存带宽的节省效果减弱。如果将批大小提升至4至8并捆绑并行请求,则可恢复至约2.2倍。而Dense版的31B模型由于没有此类路由上的限制,即使在Apple Silicon上也更容易稳定地发挥出2倍左右的效果——这是Hugging Face博客与MLX社区达成一致的看法。
Google官方博客与MarkTechPost共同指出的另一点是"前提是instruction-tuned(-it)模型,而非base model"。在AI-Muninn的实机验证中,有报告称给base model加上drafter反而会使速度降至0.61倍,这是Google官方公告中并未着重强调的注意事项。
硅谷VC的判断:坚信"推理层"是下一个主战场
硅谷的VC圈并未将谷歌此次动作视为单一的产品更新,而是将其解读为"推理层(inference layer)"这一新兴市场类别正在走向成熟的信号。Andreessen Horowitz(a16z)的Guido Appenzeller发布的《Welcome to LLMflation — LLM inference cost is going down fast》报告以数据表明,同等性能的LLM推理成本正以每年10倍的速度下降,2021年11月每百万tokens 60美元的GPT-3级别成本,到2025年时已通过Llama 3.2 3B降至每百万tokens 0.06美元(3年下降1000倍),并将"通过软件优化降低计算与内存带宽需求"列为其六大主因之一。MTP正是这种"通过软件优化改善带宽"的代表性选手。
为这一论点提供资金佐证的是:2026年1月,由vLLM的核心维护者团队(Simon Mo、Woosuk Kwon、Kaichao You、Roger Wang)创立的Inferact,在a16z与Lightspeed Venture Partners联合领投下完成1.5亿美元(约225亿日元)种子轮融资,并以8亿美元(约1200亿日元)估值正式发布。出资方还包括Sequoia Capital、Altimeter Capital、Redpoint Ventures以及Databricks Ventures。据TechCrunch报道,a16z明确表示其投资论点为:"仅靠加购H100,无法突破GPU利用率30~40%的瓶颈。能够释放剩余70%闲置算力的,正是软件层。" Inferact正在尝试商业化的vLLM,恰好就是刚刚为Gemma 4 MTP实现Day 0支持的那个项目,论点与现实产品完美契合。
同样受到投资者热切关注的,还有推理云服务商Together AI与Fireworks AI。Together AI于2025年2月在General Catalyst与Prosperity7联合领投下完成3.05亿美元(约457.5亿日元)B轮融资,估值一举跃升至33亿美元(约4950亿日元)。该公司官方表示"通过组合投机式解码、量化与FP8内核以实现性能突破",已为将MTP系草稿模型快速集成至自有推理平台做好了准备。Fireworks AI则于2025年10月以40亿美元(约6000亿日元)估值完成2.5亿美元(约375亿日元)C轮融资。根据Sacra的分析,该公司ARR于2026年2月达到3.15亿美元(约472.5亿日元),同比增速高达416%。
在Y Combinator的《Summer 2026 Requests for Startups》中,普通合伙人Diana Hu明确征募"专用于Agent循环的芯片"。她表示:"当前GPU在Agent工作负载(循环、工具调用、分支、回溯、长期上下文保持)下利用率只有30~40%。我们想要的是一款专为模型间快速上下文切换、原生投机式解码、跨整个执行图的KV缓存而设计的芯片。" 来自硬件侧的呼应也已显现。MTP正是其中"原生投机式解码"的核心技术。
Sequoia Capital于2026年4月宣布面向AI/后期阶段投资设立70亿美元(约1.05万亿日元)的扩张型基金,并在其报告《AI in 2026: A Tale of Two AIs》《2026: This is AGI》中援引IDC的预测——Agent时代的推理需求至2027年将膨胀1000倍——指出"推理成本的结构性下降与需求爆发将同步推进"。综合Bloomberg与finsmes的报道,除了专注推理优化的Inferact与Fireworks AI之外,Sequoia还在种子轮至B轮区间内积极投资以销售MTP核心技术(投机式解码)为业务形态的初创公司(如Pipeshift等)。
对企业的影响也开始以数字形式显现。AICC报告称:"截至2026年4月,企业实际有效token单价(混合)已降至每百万tokens 6.07美元,较一年前的18.40美元下降了67%。" Fortune Business Insights预测,AI推理市场规模将从2025年的1037.3亿美元(约15.6万亿日元),增至2026年的1178亿美元(约17.7万亿日元),并于2034年达到3126.4亿美元(约46.9万亿日元)。在边缘AI市场方面,Grand View Research预测将从2025年的249.1亿美元(约3.7万亿日元)→2026年的299.8亿美元(约4.5万亿日元)→2033年的1186.9亿美元(约17.8万亿日元,CAGR 21.7%),而此次发布的、面向边缘端轻量化的E2B/E4B搭载MTP的产品,正处于这条曲线的中段,将成为强劲的顺风。
报道的基调:“无损3倍”的出处与冷静分析
各家媒体的报道方式存在微妙的浓淡差异。Eastern Herald、MarkTechPost、AIToolly、Pulse2.0、Neuronad大体上以直接附和谷歌官方"3倍提速、品质无损"信息的基调进行报道。与此相对,The Decoder(Heise系)、Decrypt、claypier、buildfastwithai等偏技术向的媒体则强调,3倍只是"特定硬件、特定批次大小、特定工作负载"下的上限,在实际环境中1.7〜2.2倍才是"应有的预期值"。在Hacker News(item 48024540)的讨论串中,资深开发者们贡献了大量精准的解读,例如"这归根结底等同于针对自己预测的未来路径进行自我批处理""是一种在内存带宽成为瓶颈的GPU上填补运算单元闲置时间的机制"等,对Gemma 4令牌效率给予赞赏的声音,与认为其在代码生成和复杂工具调用方面相较Claude或GPT略逊一筹的冷静评价并列出现。
Reddit r/LocalLLaMA社区的反响同样值得关注。据Startup Fortune报道,5月5日发布当天该subreddit在3小时内汇集了463个upvote/128条comment,当日内在llama.cpp、Ollama、vLLM、LM Studio上的运行验证陆续被报告。"在同样硬件上本地推理变得如此之快,其冲击力堪比DeepSeek V3引入训练时MTP以来的首次""与其说这是一款新模型的发布,不如说是本地推理走向实用化的tipping point级动向"——此类评价占据了主导地位。
日语圈的报道目前仍较为有限,但主要技术媒体已开始通过谷歌官方博客的翻译进行报道,尤其在边缘/本地部署的语境下,意识到"Pixel TPU及Apple Silicon上的端侧智能体实用化"的解读正在增加。谷歌Developers Blog同步发布的《Bring state-of-the-art agentic skills to the edge with Gemma 4》中,介绍了将Agent Skills这一新功能与之结合、由Gemma 4 E2B/E4B在完全离线状态下运行多步骤自主智能体的运营实例,Tris Warkentin先生(谷歌DeepMind产品负责人)在X(原Twitter)上发文称"本地AI体验从这里才真正开始"。
影响的范围:聊天、智能体以及设备内AI
从技术角度来看,MTP本质上发挥作用的场景是"内存带宽成为瓶颈、运算单元处于闲置状态"的局面。这尤其直接命中以下三种用例。
其一是长文本的连续生成,以及摘要、翻译之类输出较长的连串聊天任务。让AI整篇撰写博客文章、整理会议纪要、生成长篇演示文稿草稿等场景下,体感速度真的会提升一倍以上。其二是语音接口。在语音合成流程中,来自LLM的响应文本生成成为延迟关键路径的领域,响应的起始头部在体感上可缩短三成至一半。Google AI Edge Gallery的发布说明以及LiteRT-LM文档中,明确以数字提及"在移动GPU上解码速度提升2倍以上",Pixel和Android端的语音、对话应用的实现有可能一举推进。
其三,是硅谷VC将其定位为2026年最大主题的"Agent工作负载"。正如Sequoia宣告"2026 is the year of long-horizon agents"、Y Combinator的Diana Hu女士征集"Agent循环专用芯片"所象征的那样,在包含工具调用、分支、回溯的数十步循环中,LLM调用的延迟会累积。若单次调用提速2倍,10步的Agent在体感上会感觉快5~8倍。此外,若能在Drafter、主体、各步骤之间共享KV缓存,便可抑制上下文的重新加载。将其与Anthropic在2026年5月新闻中推出的"Claude Opus 4.6 Fast Mode"实现2.5倍吞吐量,以及OpenAI的GPT-5.3-Codex提速25%等并列来看,便能看到整个行业正同时收敛于"以更快、更便宜的方式输出同等智能的专用工艺"。
VC视角下的风险与注意事项:并非人人都能享受到3倍收益
从硅谷VC的视角来看,MTP的普及存在三个尚未解决的问题。
第一,硬件依赖的不均衡。MTP的效果强烈依赖于内存带宽与计算密度的比率,因此在NVIDIA H100/RTX PRO 6000以及Apple Silicon的高端机型上能获得显著收益,而在Raspberry Pi 5等真正的低端设备,以及内存层级较浅的微控制器上效果有限。根据LiteRT-LM文档,Raspberry Pi 5上Gemma 4 E2B的解码在CPU上为7.6 tokens/sec,而在Qualcomm Dragonwing IQ8的NPU上可提升至31 tokens/sec。坦率地说,MTP在NPU上能发挥到何种程度,目前仍取决于各SoC厂商的实现。当投资人审视"On-Device AI"初创公司时,需要意识到硬件选型与MTP的契合度会对数字产生重大影响。
第二,代码生成工作负载下的精度权衡。根据AI-Muninn和kaitchup的验证,在代码生成任务中起草器(drafter)的接受率会下降,无用的投机计算会增加,因此相对于最佳情况下的3倍加速会有较大缩水。Anthropic Claude Code、GitHub Copilot、Cursor、Replit Agent这类代码辅助产品,从MTP获得的收益可能不像对话类产品那样直接。VC在该领域进行尽职调查时,确认基准测试是否过于偏重聊天场景的重要性正在上升。
第三,生态系统标准化的竞争。Google官方的"Gemma 4 MTP Drafter",以及社区发起的EAGLE-3、MEDUSA、Lookahead、DeepSeek式训练时MTP等多个流派正在并行发展,而推理运行时一侧(vLLM、SGLang、MLX、llama.cpp、TensorRT-LLM)将哪一种作为"一等公民"加以优待,可能会改变势力格局。vLLM在Day 0就优先支持了Google的drafter,这暗示了Google×vLLM×Inferact同盟关系的存在,从解读a16z投资组合战略的角度来看也是一个值得关注的动向。
何时会发生什么:未来6至18个月的路线图
作为近期动向,首先在2026年5至6月,vLLM v0.20.x系列的重大版本发布预计将把Gemma 4 MTP纳入稳定版,从GitHub Issue #42005和PR #41745的讨论来看,已达到在Hopper和Blackwell两个平台上均提供官方Docker镜像的阶段。年内MLX和llama.cpp上的MTP预计也将达到生产级品质,kaitchup在博客中预告"llama.cpp上的MTP将从测试版升级到正式发布版"。
中期来看,正如Sequoia Capital将2026年形容为"a year of delays"那样,数据中心扩建的延迟与AGI时间表的推迟相互碰撞,推理成本削减的重要性面向2027年将进一步增加。基于IDC的"到2027年推理需求将增长1000倍"的预测,像MTP这样"用同样的硬件处理更多任务"的工艺,作为对GPU供应制约的结构性回应具有强烈意义。Gartner更进一步预测,到2030年,对GenAI业者而言,1万亿参数LLM的推理成本将比2025年下降90%以上。
作为长期伏笔,DeepSeek V4(传闻于2026年下半年推出的下一代模型,空间、时间、模态的三维注意力机制备受讨论)、Meta Llama 5、xAI Grok 5、Mistral Large下一版本等所有前沿模型候选,"从设计阶段就将MTP或其衍生形态纳入"正逐渐成为既定方针。NVIDIA在官方技术博客上推出"DeepSeek V4 with NVIDIA Blackwell",展示了将Blackwell世代张量核心针对投机性解码进行优化的趋势。如果Y Combinator正在招募的"代理循环专用芯片"初创公司进入市场,MTP的红利将从硬件与软件两方面被放大。
对硅谷的VC而言,这次Google MTP的发布与其说是"对Gemma 4本身的追加投入",不如说是被视为Google对他们自2024年以来持续押注的"推理优化层"论点的有力背书。a16z的LLMflation报告、对Inferact的225亿日元种子投资、对Together AI和Fireworks AI的巨额追加投资,以及Sequoia Capital规模达1万亿日元的新基金,无一不是建立在"模型训练的华丽赢家与推理实施的低调但庞大的赢家是不同的"这一逻辑之上的。MTP正是那种"低调但有效的工艺"的象征,由于在Gemma 4这一易于访问的开放权重模型上任何人都能进行验证,从而一举将推理层市场的存在可视化——这便是截至2026年5月时点的总结。
来源
- 加速 Gemma 4:通过多令牌预测草稿器实现更快的推理 - Google Blog
- 使用多令牌预测为 Gemma 4 提速 - Google AI for Developers
- 使用 Hugging Face Transformers 实现 Gemma 4 多令牌预测 (MTP) - Google AI for Developers
- Gemma 4:逐字节而言能力最强的开放模型 - Google Blog
- Gemma 4 - Google DeepMind
- Gemma 4:以 Apache 2.0 协议扩展 Gemmaverse - Google Open Source Blog
- 欢迎来到 Gemma 4:设备端的前沿多模态智能 - Hugging Face
- Google AI 为 Gemma 4 发布多令牌预测 (MTP) 草稿器 - MarkTechPost
- Google 通过多令牌预测将 Gemma 4 提速三倍 - The Decoder
- Google 找到让本地 AI 提速至多 3 倍的方法 - Decrypt
- Google 的 Gemma 4 通过 MTP 升级提速 3 倍 - Eastern Herald
- Google 为 Gemma 4 发布 MTP 草稿器 - claypier
- Gemma 4 MTP 草稿器:实现 3 倍更快的推理(2026 年指南)- Build Fast With AI
- 起飞:Gemma 4 在 DGX Spark 上达到 670 tok/s 综合吞吐 - AI Muninn
- vLLM PR #41745:添加 Gemma4 MTP 推测解码支持
- Hacker News:加速 Gemma 4(条目 48024540)
- 通过推测解码实现 Transformer 的快速推理 - Yaniv Leviathan 等,arXiv:2211.17192
- 回顾推测解码 - Google Research Blog
- 通过多令牌预测打造更好、更快的大语言模型 - Meta,arXiv:2404.19737
- DeepSeek-V3 技术报告 - arXiv:2412.19437
- 欢迎来到 LLMflation——LLM 推理成本 - Andreessen Horowitz
- 投资 Inferact - Andreessen Horowitz
- 推理初创公司 Inferact 获 1.5 亿美元融资,将 vLLM 商业化 - TechCrunch
- Together AI 宣布完成 3.05 亿美元 B 轮融资
- Fireworks AI 收入、估值与融资情况 - Sacra
- Sequoia Capital - 2026 年的 AI:两种 AI 的故事
- Sequoia Capital - 2026:这就是 AGI
- YC 2026 年夏季创业项目征集(Diana Hu)
- LiteRT-LM 概览 - Google AI Edge
- 借助 Gemma 4 将最先进的智能体能力带到边缘 - Google Developers Blog
- vLLM Day-0 MTP 支持公告 (X)
- AI 推理市场规模与预测 - Fortune Business Insights
- 边缘 AI 市场规模与趋势 - Grand View Research
- Gartner:到 2030 年,1 万亿参数 LLM 的推理成本将下降 90%