41天周期到来的"次要版本"的分量
Anthropic在官方博客《Introducing Claude Opus 4.8》中宣布,仅在Opus 4.7(2026年4月17日发布)发布41天后的5月28日就推出了Opus 4.8。这一速度明显超过了该公司以往"以数月为单位"的更新节奏。TechCrunch报道称这是"a much faster upgrade cycle than normal for Anthropic(对Anthropic而言比通常快得多的更新周期)",Axios则同时提到,尚未公开的高端模型"Mythos"将"in the coming weeks(在未来数周内)"面向公众发布。
多家媒体指出,这种紧迫节奏的背后,是与OpenAI的GPT-5.5、Google的Gemini 3.1 Pro之间的三方角逐,以及Anthropic在2026年2月通过G轮融资以投后3,800亿美元(约58.9万亿日元)的估值筹得300亿美元(约4.65万亿日元)之后,紧接而来的年内IPO竞争。Yahoo Finance以"IPO race with OpenAI heats up(与OpenAI的IPO竞争升温)"作为标题,并将Opus 4.8的发布定位为这场竞争中产品实力的证明。
从工程师的视角来看,这次"小版本号"的发布以API标识符claude-opus-4-8的形式被迅速分发,在SDK层面也立即新增了Model.ClaudeOpus4_8(C#)、anthropic.ModelClaudeOpus4_8(Go)、Model.CLAUDE_OPUS_4_8(Java)等常量。也就是说,现有的Opus 4.7调用代码只需替换模型ID即可运行,迁移成本几乎为零。这体现了Anthropic"虽冠以小版本之名,但出货阵势却是大版本级别"的战略。
基准测试:智能体编程能力较上一代提升 +4.9pt,但在 Terminal-Bench 上仍落败的现实
最值得关注的指标,是衡量智能体编程能力的"SWE-Bench Pro"得分。根据OfficeChai整理官方数值的表格,Opus 4.8为69.2%,Opus 4.7为64.3%,OpenAI GPT-5.5为58.6%,Google Gemini 3.1 Pro为54.2%,Opus 4.8在SWE-Bench Pro上对竞争对手取得了10个百分点以上的领先优势。
在衡量智能体计算机操作能力的OSWorld-Verified上为83.4%(4.7为82.8%,GPT-5.5为78.7%,Gemini 3.1 Pro为76.2%),在OpenAI开发的、衡量知识型工作性能的GDPval上为1890分(4.7为1753分,GPT-5.5为1769分),在智能体场景下的实用能力上大幅领先于其他公司。在考验多领域推理能力的"Humanity's Last Exam"中,使用工具版本为57.9%(4.7为54.7%),不使用工具版本为49.8%,这些结果均已公布。智能体金融分析(Finance Agent v2)为53.9%,浏览器智能体评估Online-Mind2Web为84%,据Anthropic官方博客称,在"Super-Agent benchmark"中端到端完成了全部案例,并在法务智能体基准的"all-pass standard"上首次突破10%,创下了这一"首例"记录。
不过,这里也有硅谷工程师应当仔细审视的数值。在Terminal-Bench 2.1(终端上的自主编程)中,相对于Opus 4.8的74.6%,GPT-5.5以78.2%领先。也就是说,如果单独截取"在Shell上自成一体的自主任务"来看,依然存在OpenAI一方占优的领域。综合实力上是Opus 4.8占优,但在以CLI为闭环的那类智能体运用中,全力投入GPT-5.5也值得考虑——这是较为坦率的判断。Inc.杂志引用的Harvey应用研究主管Niko Grupen表示"在内部的法务智能体基准上创下了历史最高分",在需要长文本上下文推理的企业用例中,Opus 4.8领先一筹的看法正逐渐成为定论。
诚实性(Honesty)—— 幻觉的"代码缺陷遗留率"降至四分之一
在Opus 4.8中报道最多的就是"Honesty(诚实度)"的改善。根据Anthropic官方博客和cryptobriefing的报道,Opus 4.8"让自己编写的代码中所含的缺陷在不加指出的情况下通过的概率,与Opus 4.7相比降低到了约四分之一(around four times less likely)"。Tom's Guide在标题中以"far less likely to 'fake' answers(编造答案的可能性大幅降低)"来表达,Inc.杂志则评价其为"its most honest model yet(该公司迄今最诚实的模型)"。
这一改善的本质并非单纯的"事实准确性",而在于元认知精度的提升。按照Anthropic官方的说法,Opus 4.8"对自身工作的不确定性进行标记的倾向(more likely to flag uncertainties about its work)"增强了,而"做出缺乏依据的主张的倾向(less likely to make unsupported claims)"减弱了。从工程师的视角来看,这意味着在代码审查中"在盖上LGTM图章之前,自我检查是否存在疏漏的概率提高了"。
如果是一直使用到Opus 4.7的开发者,应该有过这样的经历:"拜托Claude'检查整个PR,如果有问题就指出来',结果它信心十足地回复'没有问题',但却在CI中失败了"。在Opus 4.8中,可以期待这类"源于过度自信的疏漏"大幅减少。在实际使用中的诀窍是,可以先把此前出于防御性而编写的"绝对不要遗漏。可疑之处全部列出"之类的指示提示词暂时去掉,看看原始的响应。在上一代中必不可少的"促使自我怀疑的提示词技巧",由于其效用已内化到模型一侧,相对而言应该已经变得不那么明显了。在对齐评估中,Anthropic也说明称"失准行为的发生率大幅下降,达到了与未公开模型Mythos同等的水平"。
努力控制(Effort Control)— 用一个模型对"思考深度"进行5个等级的控制
与 Opus 4.8 同步推出,对工程师而言最大的运营层面变化是「Effort(努力度)」参数的正式化。根据 Anthropic 官方的 API 文档(platform.claude.com/docs/en/build-with-claude/effort),Effort 分为 low/medium/high(默认)/xhigh/max 五个等级,是控制「Claude 在生成响应时所投入的 token 数量」的参数。在 Opus 4.7 中已部分引入,但在 Opus 4.8 中,官方文档上的推荐指引得到了明确成文。
将官方指引加以提炼后,其分工如下:low 适用于「篇幅短、范围明确的任务」以及子代理用途,medium 是「在控制成本的同时获得相当不错的结果」,high 是「复杂推理、高难度编码、代理式任务」的默认选项,xhigh 是「编码、代理类工作的推荐起点」且适用于处理「超过 30 分钟的长时间任务」「数百万 token 规模的预算」的场景,max 则仅用于「前沿级别的难题」。Anthropic 自身也明确指出,max 存在「陷入过度思考(overthinking)、在结构化输出中导致质量下降」的风险,并非万能灵药。
在实现上的小技巧方面,若使用 curl 调用,可在 output_config 中挂上 effort: "xhigh":
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-opus-4-8",
"max_tokens": 65536,
"messages": [{"role":"user","content":"…"}],
"output_config": {"effort": "xhigh"}
}'
作为 Anthropic 官方的强烈推荐,文档中提到:「在以 xhigh 或 max 运行时,务必将 max_tokens 设得足够大。以 64k token 为起点,并根据需要进行调优。」这是因为在子代理或工具调用相互串联的情况下,若 max_tokens 过小,代理的思考会在中途被截断。Opus 4.6 中广受青睐的 budget_tokens 参数已被列为废弃预定(deprecated),在 Opus 4.7/4.8 中,adaptive thinking(thinking: {type: "adaptive"})与 effort 的组合成为正式做法。需要注意的是,在 Opus 4.8 中,手动的 thinking: {type: "enabled", budget_tokens: N} 已不受支持,会返回 400 错误,因此在迁移时若保留既有的 budget 设置原样运行,便会出事故。
在 claude.ai 与 Cowork(原 Anthropic Console 系列的面向团队的体验)中,也在模型选择器旁新增了 Effort 选择 UI。可在 extra(相当于 API 上的 xhigh)与 max 之间进行选择,默认为 high。官方推荐为「extra 适用于高难度任务和长时间的异步工作流」。还有一个重要的要点是,官方说明指出,相较于 Opus 4.7 的默认设置,Opus 4.8 的默认 high 实现了「以相同的 token 数量,获得更好的性能」。
Dynamic Workflows — 在单一会话中运行数百个子代理
Claude Code 中引入的「Dynamic Workflows(动态工作流)」属于研究预览(research preview)性质,已面向 Enterprise/Team/Max 套餐开放。根据 Anthropic 的官方说明,这是一项让 Opus 这类大型模型「在单一会话内规划、执行并验证数百规模的并行子代理」的功能。具体而言,Claude Code 能够「以现有测试套件作为基准,横跨数十万行代码,从启动到合并地」执行「代码库规模的迁移」。
从工程师的视角来看,这一设计有趣之处在于:每个子代理都在「独立的上下文窗口」中运行,并且只向主编排器(orchestrator)「回传相关的信息」这样一种架构。这是典型的 Map-Reduce 风格的 LLM 编排,意味着「不污染主编排器上下文」这一实现模式,如今已作为 API 侧的原语(primitive)被提供出来。
被报道的实用用例包括,例如「React 17→19 的整个代码库迁移」「Python 类型注解的全面补充」「从内部 DSL 到 GraphQL schema 的批量重写」这类原本需要「由人类监督着创建数百个 PR」的工作。直到 Opus 4.7 时代,「分解巨型任务的逻辑」都还需要由调用方来编写,而 Opus 4.8 + Dynamic Workflows 则由 Claude 一方同时承担分解与验证两项工作。
对于硅谷的科技工程师而言,这里有两个重要的观察。第一,Dynamic Workflows 的存在佐证了为何 Opus 4.8 推荐将 max_tokens 设为「从 64k 起步」。仅子代理的结果聚合就会消耗数万 token,因此若主编排器的 max_tokens 只有 16k 是根本不够用的。第二,这清晰地展示了 Anthropic「将 Claude 打造为代码库重构与迁移承包人」这一野心,并非通过工具、而是通过模型+运行时(runtime)的组合拳来实现的路径。这将带来一种不同于 GitHub Copilot 或 Cursor 这类 IDE 层封装的、更具「自主代理色彩」的开发体验。
Messages API的威力 —— 现在可以将 system entries 放入「消息数组之中」了
与 Opus 4.8 同时推出的 Messages API 变更,看似不起眼,却大大改变了开发者体验。此前 system prompt 只能在 API 请求的开头指定,而从 Opus 4.8 起,「可以在 messages 数组中混入 system entry」了。根据 Anthropic 官方的说明,这样一来便可以实现「在任务进行途中更新对 Claude 的指令。既不破坏提示词缓存,也无需经由用户轮次」这样的运用方式。
这从工程师的角度意味着什么呢。以往在长时间运行的自主智能体执行过程中,若想进行「权限的增删」「环境变量的替换」「工具的启用/禁用切换」,要么只能用新的系统提示词重新生成,要么只能在用户轮次上做手脚。前者会破坏提示词缓存,导致计费和延迟大幅飙升;后者则会污染对话日志,使调试变得困难。
在 Opus 4.8 + 新版 Messages API 的组合下,例如「最初的系统提示词仅赋予读取权限 → 在验证阶段结束的时机追加 mid-task system 条目以授予写入权限 → 完成后再剥夺写入权限」这样的流程,便可以在不破坏提示词缓存的情况下实现。可以恰当地理解为:长时间运行的智能体的访问控制和能力开关(capability toggle),作为 API 原语得到了支持。对于那些通过 MCP(Model Context Protocol)服务器进行动态工具提供的团队而言,这是一项在运维层面影响尤其大的变更。
Fast Mode——2.5倍速、价格仅为上一代的1/3意味着什么
Opus 4.8 的"Fast Mode"(快速模式),按照 Anthropic 官方公开定价,被设定为每 100 万输入 token 10 美元(约 1,550 日元),每 100 万输出 token 50 美元(约 7,750 日元)。正如 Axios 和 TechCrunch 均明确指出的那样,这是以标准模式两倍的费用提供 2.5 倍的吞吐量。9to5Mac 提到"Opus 4.6 时代的 Fast Mode 是标准模式 6 倍的溢价",也就是说,"在上一代之前,速度的代价是 6 倍,而在 Opus 4.8 上只需 2 倍即可",因此被表述为"3 times cheaper(三分之一的价格)"。
cryptobriefing 在正式发布前撰写的文章中曾持怀疑态度地分析道:"这是发布时点尚未确定的传闻,从 6 倍降到 2 倍是激进的价格战略转变。"但截至 5 月 28 日正式发布之时,多家一手媒体(Anthropic 官方、TechCrunch、Axios、9to5Mac)一致报道了这一数字,可以视为确定信息。Anthropic 官方博客本身就直接写道:"Fast mode … is now three times cheaper than it was for previous models(快速模式……如今的价格是以往模型的三分之一)"。
从硅谷视角的解读如下。应当使用 Fast Mode 的场景,是"用户交互式、对延迟要求较高的工作流",例如 IDE 内的内联补全、面向终端用户的聊天 UI、有低延迟要求的类 API 网关用例。反之,夜间批量运行的自主智能体、长时间的代码库迁移、文档生成这类"相比速度更想优先考虑成本的场景",则应保持以标准模式运行。Anthropic 在用"标准模式"实现价格不变的同时,又通过 Fast Mode 把"速度的价值"切分为另一维度的计费,这一结构是一种巧妙的设计,促使调用方按用途进行优化。
价格维持不变所彰显的Anthropic"招聘游戏"
以同样的价格推出Opus 4.8(与Opus 4.7同价),这是向企业采用层发出的明确信号。Yahoo Finance写道"customizable effort settings help users manage token consumption(可自定义的努力程度设置让用户更易于管理token消耗)",Axios则分析称"reflects growing customer demand for cost-effective AI solutions(反映出客户对高性价比AI日益增长的需求)"。
这里有意思的是,Anthropic采取的战略并非"降低token单价",而是提供"以相同的token单价、用更少的token就能产出同样结果的模型",从而实质性地降低了单价。Opus 4.8官方博客中写道"coding tasks, this effort level spends a similar number of tokens as Opus 4.7's default, but with better performance(在编码任务中,该努力程度所消耗的token数量与Opus 4.7的默认设置相近,但性能更好)",这一表述揭示了其本质。在按token计费的SaaS业务中,"提升质量而表面价格保持不变"是最为奏效的降价形式。
在业务层面,据SaaStr在2026年2月时点的报告,Anthropic的年化营收(ARR)已达到140亿美元(约2.17万亿日元)。这一数字相比2024年12月时点的约10亿美元,在短短14个月内增长了14倍。在CNBC Disruptor 50 2026中位列第一,截至5月,有来自Bloomberg系的消息流出称其"正以超过9,000亿美元(约139.5万亿日元)的投前估值,商讨至少300亿美元(约4.65万亿日元)的融资"(Sacra汇总)。Opus 4.8价格保持不变,可以合理解读为是为延续这一增长轨迹而采取的"降低采用门槛"的一步棋。
各媒体报道立场比较
纵观围绕 Opus 4.8 的报道,各家媒体切入角度的差异表现得格外鲜明,颇为有趣。TechCrunch 以"Dynamic Workflows 工具"为主线,将其置于"继 OpenAI 的 Codex、Google 的 Gemini Flash 近期发布之后的竞争动向"这一框架中加以定位。Axios 则强调其与未公开模型 Mythos 之间的关系,提出了"Opus 4.8 尚不及 Mythos,但 Mythos 级别模型的正式发布将在数周之内到来"这一带有路线图意味的视角。Yahoo Finance 采用"IPO race"框架,凸显了在与 OpenAI 的上市竞争背景下展示产品实力这一语境。
Tom's Guide 和 9to5Mac 面向消费者及 Mac 开发者,强调了"更为诚实""幻觉减少"等体验层面的改善。Inc. 杂志以"最诚实的模型"这一信息为主轴,从商业用户的视角引用了 Harvey 的导入案例。cryptobriefing 既发布了正式发布前的质疑性文章,也发布了发布后的解读性文章,尤其对 Fast Mode 价格结构的突然变化表现出谨慎态度,但在发布当天已将其修正为确定信息。
Geeky Gadgets 在泄露阶段曾散布"分词器更新可能导致 token 消耗增加约 30%"这一未经证实的信息。在正式发布后的多个一手信源中,尚未找到关于这一点的明确记载。Anthropic 官方博客没有提及分词器变更,查看 API SDK 的差异也可发现用户侧的 token 计数 API 并无变化,因此就目前而言,将 Geeky Gadgets 的泄露视为"未经验证"是较为妥当的。截至本文撰写时,尚无法确认有独立的一手信源能够佐证这一增加 30% 的说法。
在日语圈,截至本文撰写时(2026-05-29),大型报纸尚少有正式的专题报道,目前仍处于翻译英语圈一手信息的阶段。预计《日本经济新闻》和东洋经济 ONLINE 这类媒体正式深入报道还需再过数日。
硅谷科技工程师现在应该做的事(实用技巧集)
首先,如果要把现有代码库迁移到 Opus 4.8,只需把模型 ID 从 claude-opus-4-7 替换为 claude-opus-4-8 即可运行。但凡是显式指定了 thinking: {type: "enabled", budget_tokens: N} 的地方都会报 400 错误,因此需要改写为 thinking: {type: "adaptive"} 与 output_config.effort 的组合。对于那些抱有大量散落 budget_tokens 的陈旧代码的团队,应该在跑回归测试之前先用一次性 grep 把它们全部排查出来。
其次,是 effort 设置的运维设计。如果对生产工作负载做大致分类,笔者的实用指南是:「用户交互型(聊天、补全、对话界面)」用 medium 或 low,「代码审查、代码生成」用 high 或 xhigh,「夜间批处理、代码库迁移、复杂的金融分析」用 xhigh 或 max。Anthropic 官方关于「max 会在结构化输出中引发过度思考」的警告很重要,在 JSON Schema 严格输出这类场景下贸然选用 max 反而会降低质量。
使用 xhigh/max 时的 max_tokens,按照官方推荐从 64k 起步是稳妥的。在 Anthropic 的 Go SDK 中以 anthropic.OutputConfigEffortXhigh 形式指定,在 Python SDK 中则以 output_config={"effort": "xhigh"} 形式指定。在流式 API 中使用时,由于思考阶段会变长,需要注意前端的超时设置(尤其是 HTTP/2 的 keep-alive 以及 API 网关默认的 30 秒超时)。
如果要试用 Dynamic Workflows,强烈建议先从「测试套件完善的仓库」的迁移工作入手。正如 Anthropic 自己所写的「existing test suites as a benchmark(把现有测试套件当作基准)」,测试是质量保证的 ground truth(基准事实)。如果在测试薄弱的代码库上运行大规模迁移,存在子代理量产出「能跑但语义上是错的代码」的风险。
Messages API 的新功能(mid-task system entry)在用于工具权限的动态切换、长时间任务运行中追加上下文、A/B 测试中替换提示词时才能真正发挥价值。其本质价值在于不破坏提示词缓存(prompt cache)——先在最开始抛出长篇系统提示词并让其缓存,然后在后段通过 mid-task system 条目追加差异化指令,这种模式应该会逐渐成为新的最佳实践。
最后,是 Fast Mode 的取舍。只对有面向终端用户的延迟要求的生产路径选用 Fast Mode,而把内部工具、批处理固定在标准模式,这样最具成本效益。在同一产品内采用「面向用户用 claude-opus-4-8 + Fast Mode,面向内部用 claude-opus-4-8 标准模式」这种双路径运营,并在 API 网关层做路由,是现实可行的做法。
未来展望 — Mythos及未来发展
正如Anthropic自己在Opus 4.8官方博客中所提及的,比Opus 4.8更高一级的未公开模型「Mythos」已蓄势待发。目前它以「Project Glasswing」之名,仅向有限的合作伙伴提供用于网络安全用途,但官方公告称「一旦完成网络安全方面的安全防护开发,预计将在数周内向普通客户开放」。Axios明确写道「Opus 4.8 still underperforms compared to Mythos(即便是Opus 4.8也不及Mythos)」,更高级模型的存在已是确凿信息。
从工程师视角来看,现实的预判是:在Mythos登上标准API的那一刻,「有必要重新评估用Opus 4.8构建的应用的延迟与成本结构」。Mythos有可能在部署设计上呈现出标准模式5~10倍成本、仅限xhigh/max、或仅面向有限的智能体(agent)运用等形态,无论哪种情况,都将迎来需要厘清「在Opus 4.8上稳定运行的工作负载」与「只有Mythos才能解决的新问题」的运用架构的局面。
此外,竞争对手方面,预计OpenAI GPT-5.6(基于泄露信息,定于2026年6月)、Google Gemini新版本将接连投入。Opus 4.8 vs GPT-5.6的对比文章几乎必然将成为6月以后科技媒体的主战场,届时「能用Opus 4.8做出什么/已经做出了什么」将直接关系到硅谷创业公司与企业双方的竞争力。
Opus 4.8是一款集「价格维持不变、能力提升、面向开发者的基础组件扩充」三拍子于一身、业务投入门槛极低的发布。对硅谷的工程师而言,如今想找一个不动手的理由反而更难。