Claude Opus 4.8 正式发布。价格保持不变。诚实性（Honesty）的提升、智能体能力的飞跃、努力度控制（Effort Control）

Anthropic于2026年5月28日（周四）正式发布了旗舰LLM的新版本"Claude Opus 4.8"。价格与上一代Opus 4.7保持一致，即每100万输入token 5美元（约775日元）／每100万输出token 25美元（约3,875日元），但在SWE-Bench Pro上取得了69.2%（4.7为64.3%）、在GDPval上取得了1890分（4.7为1753分），分数大幅提升。作为新功能，其诚实性（Honesty）得到提升，"放任代码缺陷不管的概率约为上一代的四分之一"，并在claude.ai和Cowork上推出"努力度控制（Effort Contr

41天周期到来的"次要版本"的分量

Anthropic在官方博客《Introducing Claude Opus 4.8》中宣布，仅在Opus 4.7（2026年4月17日发布）发布41天后的5月28日就推出了Opus 4.8。这一速度明显超过了该公司以往"以数月为单位"的更新节奏。TechCrunch报道称这是"a much faster upgrade cycle than normal for Anthropic（对Anthropic而言比通常快得多的更新周期）"，Axios则同时提到，尚未公开的高端模型"Mythos"将"in the coming weeks（在未来数周内）"面向公众发布。

多家媒体指出，这种紧迫节奏的背后，是与OpenAI的GPT-5.5、Google的Gemini 3.1 Pro之间的三方角逐，以及Anthropic在2026年2月通过G轮融资以投后3,800亿美元（约58.9万亿日元）的估值筹得300亿美元（约4.65万亿日元）之后，紧接而来的年内IPO竞争。Yahoo Finance以"IPO race with OpenAI heats up（与OpenAI的IPO竞争升温）"作为标题，并将Opus 4.8的发布定位为这场竞争中产品实力的证明。

从工程师的视角来看，这次"小版本号"的发布以API标识符claude-opus-4-8的形式被迅速分发，在SDK层面也立即新增了Model.ClaudeOpus4_8（C#）、anthropic.ModelClaudeOpus4_8（Go）、Model.CLAUDE_OPUS_4_8（Java）等常量。也就是说，现有的Opus 4.7调用代码只需替换模型ID即可运行，迁移成本几乎为零。这体现了Anthropic"虽冠以小版本之名，但出货阵势却是大版本级别"的战略。

基准测试：智能体编程能力较上一代提升 +4.9pt，但在 Terminal-Bench 上仍落败的现实

最值得关注的指标，是衡量智能体编程能力的"SWE-Bench Pro"得分。根据OfficeChai整理官方数值的表格，Opus 4.8为69.2%，Opus 4.7为64.3%，OpenAI GPT-5.5为58.6%，Google Gemini 3.1 Pro为54.2%，Opus 4.8在SWE-Bench Pro上对竞争对手取得了10个百分点以上的领先优势。

在衡量智能体计算机操作能力的OSWorld-Verified上为83.4%（4.7为82.8%，GPT-5.5为78.7%，Gemini 3.1 Pro为76.2%），在OpenAI开发的、衡量知识型工作性能的GDPval上为1890分（4.7为1753分，GPT-5.5为1769分），在智能体场景下的实用能力上大幅领先于其他公司。在考验多领域推理能力的"Humanity's Last Exam"中，使用工具版本为57.9%（4.7为54.7%），不使用工具版本为49.8%，这些结果均已公布。智能体金融分析（Finance Agent v2）为53.9%，浏览器智能体评估Online-Mind2Web为84%，据Anthropic官方博客称，在"Super-Agent benchmark"中端到端完成了全部案例，并在法务智能体基准的"all-pass standard"上首次突破10%，创下了这一"首例"记录。

不过，这里也有硅谷工程师应当仔细审视的数值。在Terminal-Bench 2.1（终端上的自主编程）中，相对于Opus 4.8的74.6%，GPT-5.5以78.2%领先。也就是说，如果单独截取"在Shell上自成一体的自主任务"来看，依然存在OpenAI一方占优的领域。综合实力上是Opus 4.8占优，但在以CLI为闭环的那类智能体运用中，全力投入GPT-5.5也值得考虑——这是较为坦率的判断。Inc.杂志引用的Harvey应用研究主管Niko Grupen表示"在内部的法务智能体基准上创下了历史最高分"，在需要长文本上下文推理的企业用例中，Opus 4.8领先一筹的看法正逐渐成为定论。

诚实性（Honesty）—— 幻觉的"代码缺陷遗留率"降至四分之一

在Opus 4.8中报道最多的就是"Honesty（诚实度）"的改善。根据Anthropic官方博客和cryptobriefing的报道，Opus 4.8"让自己编写的代码中所含的缺陷在不加指出的情况下通过的概率，与Opus 4.7相比降低到了约四分之一（around four times less likely）"。Tom's Guide在标题中以"far less likely to 'fake' answers（编造答案的可能性大幅降低）"来表达，Inc.杂志则评价其为"its most honest model yet（该公司迄今最诚实的模型）"。

这一改善的本质并非单纯的"事实准确性"，而在于元认知精度的提升。按照Anthropic官方的说法，Opus 4.8"对自身工作的不确定性进行标记的倾向（more likely to flag uncertainties about its work）"增强了，而"做出缺乏依据的主张的倾向（less likely to make unsupported claims）"减弱了。从工程师的视角来看，这意味着在代码审查中"在盖上LGTM图章之前，自我检查是否存在疏漏的概率提高了"。

如果是一直使用到Opus 4.7的开发者，应该有过这样的经历："拜托Claude'检查整个PR，如果有问题就指出来'，结果它信心十足地回复'没有问题'，但却在CI中失败了"。在Opus 4.8中，可以期待这类"源于过度自信的疏漏"大幅减少。在实际使用中的诀窍是，可以先把此前出于防御性而编写的"绝对不要遗漏。可疑之处全部列出"之类的指示提示词暂时去掉，看看原始的响应。在上一代中必不可少的"促使自我怀疑的提示词技巧"，由于其效用已内化到模型一侧，相对而言应该已经变得不那么明显了。在对齐评估中，Anthropic也说明称"失准行为的发生率大幅下降，达到了与未公开模型Mythos同等的水平"。

努力控制（Effort Control）— 用一个模型对"思考深度"进行5个等级的控制

与 Opus 4.8 同步推出，对工程师而言最大的运营层面变化是「Effort（努力度）」参数的正式化。根据 Anthropic 官方的 API 文档（platform.claude.com/docs/en/build-with-claude/effort），Effort 分为 low／medium／high（默认）／xhigh／max 五个等级，是控制「Claude 在生成响应时所投入的 token 数量」的参数。在 Opus 4.7 中已部分引入，但在 Opus 4.8 中，官方文档上的推荐指引得到了明确成文。

将官方指引加以提炼后，其分工如下：low 适用于「篇幅短、范围明确的任务」以及子代理用途，medium 是「在控制成本的同时获得相当不错的结果」，high 是「复杂推理、高难度编码、代理式任务」的默认选项，xhigh 是「编码、代理类工作的推荐起点」且适用于处理「超过 30 分钟的长时间任务」「数百万 token 规模的预算」的场景，max 则仅用于「前沿级别的难题」。Anthropic 自身也明确指出，max 存在「陷入过度思考（overthinking）、在结构化输出中导致质量下降」的风险，并非万能灵药。

在实现上的小技巧方面，若使用 curl 调用，可在 output_config 中挂上 effort: "xhigh"：

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-8",
    "max_tokens": 65536,
    "messages": [{"role":"user","content":"…"}],
    "output_config": {"effort": "xhigh"}
  }'

作为 Anthropic 官方的强烈推荐，文档中提到：「在以 xhigh 或 max 运行时，务必将 max_tokens 设得足够大。以 64k token 为起点，并根据需要进行调优。」这是因为在子代理或工具调用相互串联的情况下，若 max_tokens 过小，代理的思考会在中途被截断。Opus 4.6 中广受青睐的 budget_tokens 参数已被列为废弃预定（deprecated），在 Opus 4.7／4.8 中，adaptive thinking（thinking: {type: "adaptive"}）与 effort 的组合成为正式做法。需要注意的是，在 Opus 4.8 中，手动的 thinking: {type: "enabled", budget_tokens: N} 已不受支持，会返回 400 错误，因此在迁移时若保留既有的 budget 设置原样运行，便会出事故。

在 claude.ai 与 Cowork（原 Anthropic Console 系列的面向团队的体验）中，也在模型选择器旁新增了 Effort 选择 UI。可在 extra（相当于 API 上的 xhigh）与 max 之间进行选择，默认为 high。官方推荐为「extra 适用于高难度任务和长时间的异步工作流」。还有一个重要的要点是，官方说明指出，相较于 Opus 4.7 的默认设置，Opus 4.8 的默认 high 实现了「以相同的 token 数量，获得更好的性能」。

Dynamic Workflows — 在单一会话中运行数百个子代理

Claude Code 中引入的「Dynamic Workflows（动态工作流）」属于研究预览（research preview）性质，已面向 Enterprise／Team／Max 套餐开放。根据 Anthropic 的官方说明，这是一项让 Opus 这类大型模型「在单一会话内规划、执行并验证数百规模的并行子代理」的功能。具体而言，Claude Code 能够「以现有测试套件作为基准，横跨数十万行代码，从启动到合并地」执行「代码库规模的迁移」。

从工程师的视角来看，这一设计有趣之处在于：每个子代理都在「独立的上下文窗口」中运行，并且只向主编排器（orchestrator）「回传相关的信息」这样一种架构。这是典型的 Map-Reduce 风格的 LLM 编排，意味着「不污染主编排器上下文」这一实现模式，如今已作为 API 侧的原语（primitive）被提供出来。

被报道的实用用例包括，例如「React 17→19 的整个代码库迁移」「Python 类型注解的全面补充」「从内部 DSL 到 GraphQL schema 的批量重写」这类原本需要「由人类监督着创建数百个 PR」的工作。直到 Opus 4.7 时代，「分解巨型任务的逻辑」都还需要由调用方来编写，而 Opus 4.8 + Dynamic Workflows 则由 Claude 一方同时承担分解与验证两项工作。

对于硅谷的科技工程师而言，这里有两个重要的观察。第一，Dynamic Workflows 的存在佐证了为何 Opus 4.8 推荐将 max_tokens 设为「从 64k 起步」。仅子代理的结果聚合就会消耗数万 token，因此若主编排器的 max_tokens 只有 16k 是根本不够用的。第二，这清晰地展示了 Anthropic「将 Claude 打造为代码库重构与迁移承包人」这一野心，并非通过工具、而是通过模型＋运行时（runtime）的组合拳来实现的路径。这将带来一种不同于 GitHub Copilot 或 Cursor 这类 IDE 层封装的、更具「自主代理色彩」的开发体验。

Messages API的威力 —— 现在可以将 system entries 放入「消息数组之中」了

与 Opus 4.8 同时推出的 Messages API 变更，看似不起眼，却大大改变了开发者体验。此前 system prompt 只能在 API 请求的开头指定，而从 Opus 4.8 起，「可以在 messages 数组中混入 system entry」了。根据 Anthropic 官方的说明，这样一来便可以实现「在任务进行途中更新对 Claude 的指令。既不破坏提示词缓存，也无需经由用户轮次」这样的运用方式。

这从工程师的角度意味着什么呢。以往在长时间运行的自主智能体执行过程中，若想进行「权限的增删」「环境变量的替换」「工具的启用/禁用切换」，要么只能用新的系统提示词重新生成，要么只能在用户轮次上做手脚。前者会破坏提示词缓存，导致计费和延迟大幅飙升；后者则会污染对话日志，使调试变得困难。

在 Opus 4.8 + 新版 Messages API 的组合下，例如「最初的系统提示词仅赋予读取权限 → 在验证阶段结束的时机追加 mid-task system 条目以授予写入权限 → 完成后再剥夺写入权限」这样的流程，便可以在不破坏提示词缓存的情况下实现。可以恰当地理解为：长时间运行的智能体的访问控制和能力开关（capability toggle），作为 API 原语得到了支持。对于那些通过 MCP（Model Context Protocol）服务器进行动态工具提供的团队而言，这是一项在运维层面影响尤其大的变更。

Fast Mode——2.5倍速、价格仅为上一代的1/3意味着什么

Opus 4.8 的"Fast Mode"（快速模式），按照 Anthropic 官方公开定价，被设定为每 100 万输入 token 10 美元（约 1,550 日元），每 100 万输出 token 50 美元（约 7,750 日元）。正如 Axios 和 TechCrunch 均明确指出的那样，这是以标准模式两倍的费用提供 2.5 倍的吞吐量。9to5Mac 提到"Opus 4.6 时代的 Fast Mode 是标准模式 6 倍的溢价"，也就是说，"在上一代之前，速度的代价是 6 倍，而在 Opus 4.8 上只需 2 倍即可"，因此被表述为"3 times cheaper（三分之一的价格）"。

cryptobriefing 在正式发布前撰写的文章中曾持怀疑态度地分析道："这是发布时点尚未确定的传闻，从 6 倍降到 2 倍是激进的价格战略转变。"但截至 5 月 28 日正式发布之时，多家一手媒体（Anthropic 官方、TechCrunch、Axios、9to5Mac）一致报道了这一数字，可以视为确定信息。Anthropic 官方博客本身就直接写道："Fast mode … is now three times cheaper than it was for previous models（快速模式……如今的价格是以往模型的三分之一）"。

从硅谷视角的解读如下。应当使用 Fast Mode 的场景，是"用户交互式、对延迟要求较高的工作流"，例如 IDE 内的内联补全、面向终端用户的聊天 UI、有低延迟要求的类 API 网关用例。反之，夜间批量运行的自主智能体、长时间的代码库迁移、文档生成这类"相比速度更想优先考虑成本的场景"，则应保持以标准模式运行。Anthropic 在用"标准模式"实现价格不变的同时，又通过 Fast Mode 把"速度的价值"切分为另一维度的计费，这一结构是一种巧妙的设计，促使调用方按用途进行优化。

价格维持不变所彰显的Anthropic"招聘游戏"

以同样的价格推出Opus 4.8（与Opus 4.7同价），这是向企业采用层发出的明确信号。Yahoo Finance写道"customizable effort settings help users manage token consumption（可自定义的努力程度设置让用户更易于管理token消耗）"，Axios则分析称"reflects growing customer demand for cost-effective AI solutions（反映出客户对高性价比AI日益增长的需求）"。

这里有意思的是，Anthropic采取的战略并非"降低token单价"，而是提供"以相同的token单价、用更少的token就能产出同样结果的模型"，从而实质性地降低了单价。Opus 4.8官方博客中写道"coding tasks, this effort level spends a similar number of tokens as Opus 4.7's default, but with better performance（在编码任务中，该努力程度所消耗的token数量与Opus 4.7的默认设置相近，但性能更好）"，这一表述揭示了其本质。在按token计费的SaaS业务中，"提升质量而表面价格保持不变"是最为奏效的降价形式。

在业务层面，据SaaStr在2026年2月时点的报告，Anthropic的年化营收（ARR）已达到140亿美元（约2.17万亿日元）。这一数字相比2024年12月时点的约10亿美元，在短短14个月内增长了14倍。在CNBC Disruptor 50 2026中位列第一，截至5月，有来自Bloomberg系的消息流出称其"正以超过9,000亿美元（约139.5万亿日元）的投前估值，商讨至少300亿美元（约4.65万亿日元）的融资"（Sacra汇总）。Opus 4.8价格保持不变，可以合理解读为是为延续这一增长轨迹而采取的"降低采用门槛"的一步棋。

各媒体报道立场比较

纵观围绕 Opus 4.8 的报道，各家媒体切入角度的差异表现得格外鲜明，颇为有趣。TechCrunch 以"Dynamic Workflows 工具"为主线，将其置于"继 OpenAI 的 Codex、Google 的 Gemini Flash 近期发布之后的竞争动向"这一框架中加以定位。Axios 则强调其与未公开模型 Mythos 之间的关系，提出了"Opus 4.8 尚不及 Mythos，但 Mythos 级别模型的正式发布将在数周之内到来"这一带有路线图意味的视角。Yahoo Finance 采用"IPO race"框架，凸显了在与 OpenAI 的上市竞争背景下展示产品实力这一语境。

Tom's Guide 和 9to5Mac 面向消费者及 Mac 开发者，强调了"更为诚实""幻觉减少"等体验层面的改善。Inc. 杂志以"最诚实的模型"这一信息为主轴，从商业用户的视角引用了 Harvey 的导入案例。cryptobriefing 既发布了正式发布前的质疑性文章，也发布了发布后的解读性文章，尤其对 Fast Mode 价格结构的突然变化表现出谨慎态度，但在发布当天已将其修正为确定信息。

Geeky Gadgets 在泄露阶段曾散布"分词器更新可能导致 token 消耗增加约 30%"这一未经证实的信息。在正式发布后的多个一手信源中，尚未找到关于这一点的明确记载。Anthropic 官方博客没有提及分词器变更，查看 API SDK 的差异也可发现用户侧的 token 计数 API 并无变化，因此就目前而言，将 Geeky Gadgets 的泄露视为"未经验证"是较为妥当的。截至本文撰写时，尚无法确认有独立的一手信源能够佐证这一增加 30% 的说法。

在日语圈，截至本文撰写时（2026-05-29），大型报纸尚少有正式的专题报道，目前仍处于翻译英语圈一手信息的阶段。预计《日本经济新闻》和东洋经济 ONLINE 这类媒体正式深入报道还需再过数日。

硅谷科技工程师现在应该做的事（实用技巧集）

首先，如果要把现有代码库迁移到 Opus 4.8，只需把模型 ID 从 claude-opus-4-7 替换为 claude-opus-4-8 即可运行。但凡是显式指定了 thinking: {type: "enabled", budget_tokens: N} 的地方都会报 400 错误，因此需要改写为 thinking: {type: "adaptive"} 与 output_config.effort 的组合。对于那些抱有大量散落 budget_tokens 的陈旧代码的团队，应该在跑回归测试之前先用一次性 grep 把它们全部排查出来。

其次，是 effort 设置的运维设计。如果对生产工作负载做大致分类，笔者的实用指南是：「用户交互型（聊天、补全、对话界面）」用 medium 或 low，「代码审查、代码生成」用 high 或 xhigh，「夜间批处理、代码库迁移、复杂的金融分析」用 xhigh 或 max。Anthropic 官方关于「max 会在结构化输出中引发过度思考」的警告很重要，在 JSON Schema 严格输出这类场景下贸然选用 max 反而会降低质量。

使用 xhigh／max 时的 max_tokens，按照官方推荐从 64k 起步是稳妥的。在 Anthropic 的 Go SDK 中以 anthropic.OutputConfigEffortXhigh 形式指定，在 Python SDK 中则以 output_config={"effort": "xhigh"} 形式指定。在流式 API 中使用时，由于思考阶段会变长，需要注意前端的超时设置（尤其是 HTTP/2 的 keep-alive 以及 API 网关默认的 30 秒超时）。

如果要试用 Dynamic Workflows，强烈建议先从「测试套件完善的仓库」的迁移工作入手。正如 Anthropic 自己所写的「existing test suites as a benchmark（把现有测试套件当作基准）」，测试是质量保证的 ground truth（基准事实）。如果在测试薄弱的代码库上运行大规模迁移，存在子代理量产出「能跑但语义上是错的代码」的风险。

Messages API 的新功能（mid-task system entry）在用于工具权限的动态切换、长时间任务运行中追加上下文、A/B 测试中替换提示词时才能真正发挥价值。其本质价值在于不破坏提示词缓存（prompt cache）——先在最开始抛出长篇系统提示词并让其缓存，然后在后段通过 mid-task system 条目追加差异化指令，这种模式应该会逐渐成为新的最佳实践。

最后，是 Fast Mode 的取舍。只对有面向终端用户的延迟要求的生产路径选用 Fast Mode，而把内部工具、批处理固定在标准模式，这样最具成本效益。在同一产品内采用「面向用户用 claude-opus-4-8 + Fast Mode，面向内部用 claude-opus-4-8 标准模式」这种双路径运营，并在 API 网关层做路由，是现实可行的做法。

未来展望 — Mythos及未来发展

正如Anthropic自己在Opus 4.8官方博客中所提及的，比Opus 4.8更高一级的未公开模型「Mythos」已蓄势待发。目前它以「Project Glasswing」之名，仅向有限的合作伙伴提供用于网络安全用途，但官方公告称「一旦完成网络安全方面的安全防护开发，预计将在数周内向普通客户开放」。Axios明确写道「Opus 4.8 still underperforms compared to Mythos（即便是Opus 4.8也不及Mythos）」，更高级模型的存在已是确凿信息。

从工程师视角来看，现实的预判是：在Mythos登上标准API的那一刻，「有必要重新评估用Opus 4.8构建的应用的延迟与成本结构」。Mythos有可能在部署设计上呈现出标准模式5～10倍成本、仅限xhigh／max、或仅面向有限的智能体（agent）运用等形态，无论哪种情况，都将迎来需要厘清「在Opus 4.8上稳定运行的工作负载」与「只有Mythos才能解决的新问题」的运用架构的局面。

此外，竞争对手方面，预计OpenAI GPT-5.6（基于泄露信息，定于2026年6月）、Google Gemini新版本将接连投入。Opus 4.8 vs GPT-5.6的对比文章几乎必然将成为6月以后科技媒体的主战场，届时「能用Opus 4.8做出什么／已经做出了什么」将直接关系到硅谷创业公司与企业双方的竞争力。

Opus 4.8是一款集「价格维持不变、能力提升、面向开发者的基础组件扩充」三拍子于一身、业务投入门槛极低的发布。对硅谷的工程师而言，如今想找一个不动手的理由反而更难。