从DeepMind、OpenAI到Anthropic：改变AI历史的珍贵论文们

从2017年的Transformer到2024年的Claude内部解析，从硅谷AI研究者的视角，一气贯通地解读塑造了现代AI骨架的10篇论文。以Google/DeepMind的"架构与强化学习"、OpenAI的"规模与涌现"、Anthropic的"安全性与可解释性"为三幕结构，结合具体示例尽量通俗地讲解各论文的内容，最后展望整体脉络与未来走向。截至2026年6月，由撰写这些论文的研究者们所领导的企业群，以Anthropic（估值约9650亿美元，约合154万亿日元）和OpenAI（约8520亿美元，约合136万亿日元）为首，

引言——将现代AI作为"三幕剧"来解读的10篇论文

在硅谷从事AI研究，有时会涌现出一种奇异的感觉：如今我们习以为常的大多数技术，其源头竟然可以追溯到区区十篇左右的论文。无论是聊天机器人、蛋白质结构预测、在围棋上超越人类的程序，还是"先思考再回答"的推理模型，一切都建立在少数几个决定性的思想之上。本文所聚焦的这十篇，正是其中的"珠玉之作"。

将这些论文分为三幕来阅读，现代AI的故事便会豁然开朗。第一幕的主角是Google与DeepMind。2017年，Google发表的《Attention Is All You Need》催生了如今所有生成式AI所依赖的架构——Transformer（变换器）。同年，DeepMind推出了无需人类棋谱、自我独学围棋的《AlphaGo Zero》；2021年又发表了《AlphaFold》，破解了困扰人类五十年的蛋白质结构预测难题。这一幕的主题，是全新的架构、基于强化学习的"自我改进"，以及AI在科学领域的应用。

第二幕的主角是OpenAI。OpenAI将"越大越聪明"这一朴素而在当时无人真正相信的假说，通过2020年的"扩展定律"论文将其确立为规律，并以同年的《GPT-3》加以验证。只需向模型展示几个示例便能完成新任务的奇特现象——"上下文学习（in-context learning）"——就此为世人所知。2024年，OpenAI发布了"回答前先思考"的推理模型o1，将扩展的轴线从训练时延伸至推理时。

第三幕的主角是Anthropic。Anthropic由一批离开OpenAI的研究者于2021年创立，他们高举"在提升能力之前，先理解模型、使其安全"的旗帜。他们相继推出了将Transformer内部解剖为电路的《机械可解释性（mechanistic interpretability）》、利用AI自身反馈实现无害化的《Constitutional AI》、将上下文学习扩展至数百示例规模的《多样本学习（many-shot learning）》，以及从实际运行的Claude中提取人类可理解"特征"的《Scaling Monosemanticity》。能力的故事，就此转向了理解与控制的故事。

本文的目标，并非单纯的论文摘要罗列。而是要以内部视角，将这十篇论文如何相互串联、彼此引用，以及在硅谷研究者社群中引发了怎样的人员流动与思想碰撞，一一缝合呈现。细心的读者将会发现，贯穿这三幕的有两条伏线。其一是"强化学习"——从AlphaGo Zero的自我对弈，到Constitutional AI的RLAIF，再到o1的推理训练，一线贯穿。其二是"上下文学习"——在GPT-3中被发现，经由Transformer电路研究揭示其机制，通过多样本学习得到扩展，又在Monosemanticity中得以可视化。那么，就让我们从第一幕的序曲开始吧。

Attention Is All You Need（2017，Google）——所有生成式AI所依赖的基础

首先，我想从现代AI中被引用最多的论文说起。2017年，谷歌大脑的8位研究者发表了《Attention Is All You Need》，彻底抛弃了此前在机器翻译等领域占主流的"循环神经网络（RNN）"，提出了一种仅凭"注意力机制（attention）"来处理文本的全新架构——Transformer。标题直译为"注意力即一切"。当年看来像是一句挑衅式的玩笑，如今却成了字面意义上的真理。

举个具体例子。要让机器理解"他在银行钓鱼"这句话，就必须根据远处的"钓鱼"一词来判断"银行（bank）"究竟是金融机构还是河岸。传统RNN从左到右逐字顺序读取，难以捕捉相距较远词语之间的关系，而且由于是逐步处理，无法进行并行计算。Transformer的自注意力机制让句子中的所有词语能够同时相互"环顾"，直接计算出每个词应该对其他词赋予多少权重。"钓鱼"这个词看到"银行"，便会判断"啊，这里说的是河岸"，并相应地调整权重。这一过程通过多个视角（多头注意力）同时进行，词序信息则以"位置编码"的形式单独附加。

这一设计蕴含着两层革命性意义。第一，整个句子可以一次性并行处理，从而充分发挥GPU的计算能力。论文中的大型模型仅用8块NVIDIA P100 GPU训练了3.5天，便在英德翻译基准WMT 2014上取得了BLEU分数28.4、英法翻译41.8的当时最优成绩，而所需计算量却大幅减少。第二，正是这种并行性从物理层面使得"不断扩大规模"的后续scaling策略成为可能。没有Transformer，就不会有GPT-3，也不会有Claude。

从硅谷内部的视角来看，这篇论文的8位作者此后的经历颇为引人注目。他们全部离开了谷歌，成为主导现代AI产业的创业者与研究者。Noam Shazeer创办了对话AI公司Character.AI（后回归谷歌主导Gemini）；Aidan Gomez出任Cohere CEO；Ashish Vaswani与Niki Parmar共同创立了Essential AI；Llion Jones创立了Sakana AI；Jakob Uszkoreit联合创办了专注mRNA设计的Inceptive；Illia Polosukhin转向区块链项目NEAR Protocol；Łukasz Kaiser加入了OpenAI。一篇论文的作者列表，就此成为2020年代AI创业公司的"族谱"。值得一提的是，这篇论文诞生于其中的谷歌大脑与DeepMind于2023年4月合并，如今已整合为一个名为"Google DeepMind"的统一组织。下一章中DeepMind的故事，也是同一屋檐下的篇章。

Mastering the game of Go without human knowledge（2017，DeepMind）——不模仿任何人类的"从零开始的天才"

2017年10月，DeepMind在《自然》杂志上发表了「在没有人类知识的情况下掌握围棋（Mastering the game of Go without human knowledge）」。文中登场的AlphaGo Zero，是前一年击败世界顶尖棋手李世石的初代AlphaGo的继承者，但有一个决定性的不同之处。初代AlphaGo大量学习了人类职业棋手的棋谱，而AlphaGo Zero只被赋予了围棋规则，完全不使用任何人类对局数据，仅靠与自身对弈来不断提升实力。

为了体会这究竟是多么不可思议的事，不妨打个比方。一个人从未受过任何人的指导，没有看过任何棋谱，只是拿到一块棋盘、棋子和规则书，把自己关在房间里与自己反复对弈，几天后走出来，竟以百战百胜的成绩击败了历史上最强的棋手——AlphaGo Zero所做的，正是如此。从最初只会随机落子的「白纸」状态出发，以自我对弈所积累的经验为唯一导师，一点一点地自我迭代。据论文记载，从训练开始仅仅3天，便以100比0超越了击败李世石的版本（AlphaGo Lee），40天后Elo等级分估算达到5,185，超越了此前所有版本。

技术核心在于强化学习与搜索的精妙融合。AlphaGo Zero用一个神经网络同时预测「下一步的落子概率」和「当前局面的胜率」。每局对弈时进行蒙特卡洛树搜索（MCTS）式的前瞻推演，并以推演结果作为「更优样本」来训练网络。网络越强，搜索越敏锐；敏锐的搜索又产生更优质的训练数据——这一自我强化的循环，无需借助任何人类知识的外部支撑，便创造出了超人的实力。尤为值得关注的是，AlphaGo Zero自行重新发现了定式（人类历经数百年探索出的优良棋形），甚至还创造出了人类从未知晓的新定式。

从硅谷的视角来看，这篇论文真正的意义不在于围棋本身，而在于证明了一项原理：「只要能定义奖励，仅凭自我对弈的强化学习便能超越人类」。DeepMind将这一方法加以泛化，以相同算法制霸围棋、国际象棋和将棋的AlphaZero，以及无需提供游戏规则便能自主学习的MuZero相继问世。而这种「通过自我改进实现超越」的思想，以不同形式在本文后半部分反复出现。在Anthropic的Constitutional AI中——AI自行生成反馈以实现无害化——以及在OpenAI的o1中——自行生成推理链并以奖励加以打磨——都流淌着AlphaGo Zero的基因。强化学习，正是贯穿本文的第一条伏线。

高精度蛋白质结构预测与AlphaFold（2021，DeepMind）——AI解决的"生物学50年难题"

DeepMind树立的另一座丰碑，是2021年发表于《自然》杂志的论文《利用AlphaFold进行高精度蛋白质结构预测》。这与围棋之类的游戏截然不同——AI直接攻克了生物学领域长达50年的难题本身，其历史意义完全不在同一维度。2024年，DeepMind的德米斯·哈萨比斯与约翰·江珀凭借这一成果荣获诺贝尔化学奖，足以说明其分量之重（奖项的另一半授予了通过计算手段从头设计新型蛋白质的华盛顿大学戴维·贝克）。

究竟难在何处？蛋白质是由20种氨基酸依次串联而成的"链条"，而这条链条会在细胞中瞬间折叠成复杂的立体结构，其"形状"直接决定了功能。酶、抗体、肌肉，无不以形生功。然而，从氨基酸序列预测最终立体结构的"蛋白质折叠问题"，因组合数量多达天文数字，自1972年因提出这一问题而被诺贝尔奖提及以来，半个世纪以来一直被视为生物学最大的未解之谜。传统方法依赖X射线晶体学等手段，解析一个结构往往耗时数月乃至数年，且代价高昂。

AlphaFold2的革命性突破，在于一种名为Evoformer的全新神经网络。它将进化过程中积累的"相似蛋白质的序列集合（多序列比对，MSA）"与"氨基酸间距离关系矩阵"这两类信息，通过注意力机制（此处同样延续了前章Transformer的核心思想）反复迭代精炼，最终一举输出三维坐标。其关键创新在于一种几何学技巧：利用经由第三个氨基酸构成的"三角形"一致性，对两个氨基酸之间的关系进行校正。在2020年蛋白质结构预测世界大赛CASP14上，AlphaFold2以中位GDTスコア92.4——满分100分、与实验结构几乎无法区分的精度——横扫赛场，将第二名远远甩在身后，被誉为"这一问题在本质上已被解决"。

这篇论文之所以与一般技术成果截然不同，在于其后续社会影响的深远程度。DeepMind毫无保留地公开了预测结构，AlphaFold蛋白质结构数据库收录了约2亿条结构条目，涵盖几乎所有已知蛋白质，全球190个国家、逾200万名研究者正在使用。从药物研发、酶的设计，到抗生素耐药性与疟疾研究，生命科学各个领域的"基本前提"已然改变。作为硅谷研究者，我尤其想强调的是：AlphaFold最鲜明地昭示了"AI绝非只会玩弄文字的玩具，而是能够攻克人类迄今无法解决的自然科学难题的工具"。哈萨比斯以AlphaFold为起点创立了制药企业Isomorphic Labs，并于2024年将其进化为AlphaFold 3——不仅预测蛋白质，更能预测DNA、RNA乃至小分子化合物的复合体结构——这正是其影响射程之广的有力佐证。

Scaling Laws for Neural Language Models（2020，OpenAI）——将"越大越聪明"变成了一条定律

现在进入第二幕，OpenAI的故事。2020年1月，OpenAI的贾里德·卡普兰等人发表了一篇题为《神经语言模型的缩放定律》的论文，看似平淡无奇，却决定性地塑造了现代AI的战略本身。一言以蔽之，其核心主张是："语言模型的智能水平（预测误差的大小）随模型规模、数据量和计算量的增加，以令人惊叹的整洁'幂律'持续提升。"

这一发现的伟大之处在哪里？研究开发通常是一种赌博式的事业，做之前根本不知道会发生什么。然而卡普兰等人在参数量跨越7个数量级的200多个模型上进行了训练，将其性能绘制成图表后，发现数据点几乎排列成一条直线（双对数坐标下的直线即幂律）。这意味着，可以从小模型的实验结果事先预测尚未构建的巨大模型的性能。就像天气预报一样，能够估算出"投入这么多计算资源，就能变得这么聪明"。这也成为了证明巨额投资合理性的经营决策工具。

具体的意涵同样令人震撼。论文指出，为最高效地利用给定的计算预算，应将资源倾斜于扩大模型规模，而非增加数据量（最优参数量应按计算量的约0.73次方增长，数据量按0.27次方增长）。此外，论文还指出"模型越大，从越少的数据中学到越多（样本效率越高）"。这一"有疑问就扩大规模"的信息，助推了紧随其后的GPT-3——史上规模空前的巨大模型——的押注。下一章的GPT-3，正是这一缩放定律的第一次宏大实证实验。

不过，作为研究者，有必要诚实地补充一段后记。2022年，DeepMind的霍夫曼等人在一项名为"Chinchilla（龙猫）"的研究中指出，卡普兰等人的最优配分存在偏差。在相同的计算预算下，以几乎相同的比例（各约按计算量的0.5次方）同步增加参数量和数据量才是最优的，而包括当时GPT-3在内的巨大模型"规模太大，训练数据却严重不足"。实际上，拥有700亿参数的Chinchilla超越了规模大4倍、拥有2800亿参数的Gopher。事后分析认为，造成这一差异的主要原因在于卡普兰等人在计算参数时排除了嵌入层，以及学习率的设置问题。缩放定律并非铁板一块的真理，而是经过不断修正才逐步提升精度的——我认为，这一自我修正的过程，正是这一领域健康发展的证明。

Language Models are Few-Shot Learners（2020，OpenAI）——只需"展示几个示例"即可学习的巨人

2020年发布的GPT-3论文《语言模型是少样本学习器（Language Models are Few-Shot Learners）》，以令世界瞠目结舌的方式验证了缩放定律理论。这项荣获NeurIPS 2020最佳论文奖的研究表明，拥有当时堪称天文数字的1750亿参数——比此前任何非稀疏模型大10倍——的巨型语言模型，能够习得令人意想不到的能力。

这种能力，正是贯穿本文的第二条伏线——上下文学习（in-context learning）。且听我打个比方。在传统机器学习中，若想让模型具备翻译能力，必须用翻译数据重新进行"额外训练（微调）"。然而GPT-3截然不同。只需在提示词（输入文本）中写上几个示例，如"sea otter → loutre de mer、cheese → fromage"，最后写上"dog →"，模型无需任何额外训练便能续写出"chien"。它不更新任何权重，仅凭阅读所给的上下文，便能当场领悟"原来这是英法翻译任务"并付诸实践。论文将这一能力系统地分为三个层次加以评估：一个示例都不给的"零样本"、只给一个示例的"单样本"，以及给出10至100个示例的"少样本"。

GPT-3展现的才能涵盖广泛。除翻译、问答、填空之外，它还能完成诸如解词语字谜、在句中使用新造词、进行三位数加法等需要"即时推理"的任务。尽管没有人明确"教过它加法"，它却在阅读海量文本的过程中，将算术规律内化于自身。这种"随着规模扩大，未经训练的能力突然涌现"的现象——后来被称为涌现（emergence）——正是GPT-3带给研究者社群的最大震撼。

从硅谷的视角回望，GPT-3也是一篇打破"研究"与"产品"边界的论文。通用API这一理念直接催生了ChatGPT，2022年底ChatGPT的发布使生成式AI成为大众社会的现象。与此同时，GPT-3也给本文后半部分留下了两道待解之题。其一，"上下文学习为何会发生，其内部机制是什么"——回答这个问题的，是后续章节中Anthropic的可解释性研究。其二，"若将少样本的'数个'增加到'数百个'会怎样"——这将引出多样本学习的章节。GPT-3既是答案，同时也是一座蕴藏着巨大问题的宝库。

Learning to Reason with LLMs（2024，OpenAI）——"先思考再回答"开辟了扩展的新维度

作为OpenAI的第三部作，我想聚焦于2024年9月发布的推理模型o1的技术报告《Learning to Reason with LLMs》。这篇报告在此前"模型越大、训练计算量越多就越聪明"的扩展常识之上，添加了一条全新的轴线——即"在给出答案之前，让模型思考更长时间（增加推理时的计算量），模型就会变得更聪明"。

让我们用一个直观的例子来理解。面对一道难数学题，人类凭反射立即作答，与在纸上写出中间步骤、认真思考10分钟，正确率截然不同。传统语言模型可以说是对所有问题都在"反射性地即时作答"。o1所做的，是在给出答案之前，在内部展开一条漫长的"思维链（chain of thought）"——提出假设、验算、发现错误、调整方向。而且，为了有效地传授这种思考方式，并非让模型模仿人类写好的范例，而是使用了大规模强化学习。让模型自行解题，对正确的推理路径给予奖励，让其自主发现"productive（富有成效地）思考"的方式。在这里，也请注意从AlphaGo Zero延续下来的"通过自我提升进行强化学习"的脉络依然在发挥作用。

成果是戏剧性的。在美国数学奥林匹克预选赛AIME 2024中，上一代GPT-4o平均只能解答12%（15题中的1.8题），而o1单次作答达到74%，64次多数投票达到83%，经过1000次采样并由训练好的评分器重新筛选后，甚至达到了93%。在竞技编程平台Codeforces上进入前11%（89百分位），在博士级别的科学问题上也与专家水平相当。论文所展示的最重要的图表，是"将思考时间（推理时计算量）呈指数级增加，正确率呈线性提升"这一对数线性关系。至此，通过训练时计算量和推理时计算量这两条相互独立的轴线都能让模型变得更聪明，第一次被清晰地证明了。

作为研究者，我想强调这篇论文的两点重要意义。第一，在Chinchilla之后，业界弥漫着"训练数据正在枯竭，扩展已经触及天花板"的隐忧，而o1开辟了"推理时计算"这一全新的增长空间。这既改写了融资的逻辑，也重塑了对半导体的需求。第二，o1的脉络被此后的o3等推理模型群所继承，在2026年的今天，各家公司的旗舰模型都是以"会思考"为前提进行设计的。后文将提到的Anthropic的Claude Opus 4.8，以及OpenAI的GPT-5.5，都生活在这个"推理时扩展"的世界里。第二幕的OpenAI所描绘的，是"扩展不只有一个方向，而是拥有多条轴线"这一更加丰富的扩展地图。

A Mathematical Framework for Transformer Circuits（2021, Anthropic）——将黑箱解读为"电路"

现在进入第三幕——Anthropic的故事。Anthropic于2021年由曾在OpenAI主导GPT-3及扩展定律研究的学者们创立，其中包括达里奥·阿莫代伊、达妮埃拉·阿莫代伊兄妹，以及扩展定律的首席作者贾里德·卡普兰等人。他们秉持"在盲目提升能力之前，首先理解并确保模型安全"的理念，独立出走创业。最纯粹地体现这一思想的，是2021年12月发表的论文《Transformer电路的数学框架（A Mathematical Framework for Transformer Circuits）》。

让我们用一个比喻来解释这篇论文的问题意识。大型语言模型是由数千亿个数值堆砌而成的庞然大物，输入进去就会得到输出，但其中"究竟发生了什么"，无人知晓——这是一个巨大的黑箱。论文作者纳尔逊·埃尔哈吉等人的目标，是将这个黑箱进行逆向解析，还原为人类可以理解的"电路（circuit）"——就像将已编译的程序反汇编还原为源代码一样。这一领域被称为机械可解释性（mechanistic interpretability），Anthropic由此成为该领域的旗手。

这篇论文并非直接解剖真实的大型模型，而是对只含注意力机制的"0层、1层、2层"极小玩具模型进行了彻底拆解。由此引入的分析视角十分优雅：Transformer内部存在一条名为"残差流（residual stream）"的公共通信信道，各注意力头从中读取信息，并将计算结果写回——如同模型内部的"公告板"一般运作。论文进而指出，每个注意力头的功能可以分解为两个回路："决定关注哪个词的回路（QK回路）"与"决定从所关注的位置读取并写入何种信息的回路（OV回路）"。黑箱开始呈现为可解释部件的组合。

这篇论文最重大的发现是"归纳头（induction heads）"。这是一种首次出现在两层模型中的回路，其功能类似于复制粘贴："如果此前见过'A则B'的模式，那么当再次出现A时，就预测B"。乍看之下平淡无奇，但这正是上一章中GPT-3所展现的"上下文学习（in-context learning）"现象的有力候选机制。事实上，Anthropic在随后2022年的研究中证明：归纳头在模型中形成的时刻，与上下文学习能力涌现的时刻恰好吻合。也就是说，本章构成了一处伏笔回收——第二幕OpenAI"发现"的神秘现象，在第三幕由Anthropic给出了"机制层面的解释"。这篇论文，正是能力的故事折返为理解的故事的转折点。

Constitutional AI: Harmlessness from AI Feedback（2022，Anthropic）——AI用AI来驯化的"宪法"这一发明

Anthropic的第二部代表作，是2022年12月发表的《Constitutional AI：基于AI反馈的无害性》。这是此后Anthropic旗下产品Claude的核心训练方法，标志着一次在实践与思想层面都举足轻重的转变——"要让AI变得安全，并不需要人类逐一对有害输出打上否定标签"。

先来介绍背景。ChatGPT等产品所采用的标准安全化方法是"基于人类反馈的强化学习（RLHF）"，需要人工对数以万计的有害／无害案例进行标注。然而这一方式成本高昂，且存在伦理隐患——大量有害内容会使标注人员长期暴露其中，加之何为有害的判断标准也缺乏透明度。Anthropic的问题意识由此而来：能否事先将标准以明文化的"宪法（constitution）"的形式给出，再让AI自己来完成"驯化"的工作？

其机制分为两个阶段。第一阶段（监督学习）：首先故意向模型提出有害问题，引导其生成危险回答；随后让模型自身依据"当前回答违反了宪法第○○条原则"进行自我批判，并重新作答；再以改写后的无害回应对模型进行微调。第二阶段（强化学习）：让模型生成两个回答，由AI自身判断哪个更符合宪法，以此生成偏好数据，并以其作为奖励信号进一步训练模型。由于奖励信号来自AI的反馈而非人工标注，这一方法被称为RLAIF（基于AI反馈的强化学习）。该宪法参照《世界人权宣言》等文件，由约16条原则构成，涵盖合法性、有害性、公平性、语气等维度。

这篇论文的精妙之处，在于为安全性与有用性之间的权衡提供了新的解法。在传统方法下，过度强化无害化往往会使模型陷入过度拒绝的困境——对任何问题都以"这个问题无法作答"搪塞。而经由Constitutional AI训练的模型，面对有害请求时不再沉默以对，而是成为一个能够解释为何无法回应并持续对话的助手——"无害但不回避"。从研究者的视角来看，AlphaGo Zero以来的"自我改进"思想在此同样发挥着作用——模型批判自身的输出，加以修订，再以自身的偏好来训练自己。Anthropic此后将这一方法发展为"集体Constitutional AI"实验，尝试将普通公民的意见纳入宪法，进而触及一个更深层的治理命题：AI的价值观，究竟由谁、以何种方式来决定。

Many-Shot In-Context Learning（2024，DeepMind）与Many-shot Jailbreaking（2024，Anthropic）——情境学习的光与影

本章讨论2024年将上下文学习推向新规模的"多样本学习"（Many-shot Learning）。

首先来把握这一现象本身。第二幕中GPT-3所展示的少样本学习，是在提示中加入"10到100个"示例的方法。然而到2024年，各家公司的上下文窗口（一次能读入的输入长度）急剧扩展，已能处理数十万个token。于是Google DeepMind做了一个简单的实验——如果将示例增加到数百个乃至数千个，会发生什么？结果发现，在翻译、摘要、推理等广泛任务上，性能持续大幅提升。此外，针对人类准备的示例耗尽的问题，他们还证明了：使用模型自身生成的思维链作为示例的"Reinforced ICL"，以及甚至不提供示例答案、只大量排列问题的"Unsupervised ICL"，同样有效。无需依赖微调，只需将大量示例注入上下文，便能让模型适应新任务。

那么Anthropic的"多样本越狱"（Many-shot Jailbreaking）是什么？这是同一原理危险的另一面。Anthropic的研究人员发现，对于经过安全训练的模型，将"礼貌回答危险问题"的虚假对话数百轮塞入提示中，模型会被该上下文牵引，进而对原本应该拒绝的有害请求做出响应。令人不寒而栗的是，其有效性随示例数量呈幂律增长——这正是上下文学习所具有的普遍特性本身。而且这种攻击不仅对Anthropic自家的Claude有效，对OpenAI和Google DeepMind的模型同样奏效。"便利功能"——长上下文窗口——直接成为新的攻击面，这是安全研究的深刻教训。

将这两篇文章对照阅读，便能看清现代AI的本质。上下文学习在GPT-3中被发现（第二幕），在Transformer电路中机制得以阐明（本幕的归纳头），并在多样本学习中被确认为"规模越大越强大、遵循幂律的现象"。正如缩放定律支配了模型的"训练"，幂律也同样支配着"上下文学习"。而同一种力量，既能用于能力扩展（DeepMind），也能用于安全破坏（Anthropic）。正是这种两义性，才是同时关注能力与安全的Anthropic，不惜公开攻击手法、向业界发出警告的原因。

Scaling Monosemanticity（2024，Anthropic）——从生产环境的Claude中提取"语义组件"

第三幕的收尾之作，也是本文第10篇论文，是Anthropic于2024年5月发布的《Scaling Monosemanticity: 从Claude 3 Sonnet中提取可解释特征》。这是一项里程碑式的研究，将Transformer电路章节中萌生的机械可解释性雄心，最终付诸实现于在生产环境中实际运行的大规模模型Claude 3 Sonnet之上。

问题的核心在于一种名为"叠加（superposition）"的棘手性质。神经网络中的每一个神经元，并不会如人们所期望的那样，干净地对应"狗"或"悲伤"这样的单一概念。单个神经元会同时响应数十个互不相关的概念，呈现出多义性（polysemantic）状态，这是阻碍模型解读的最大障碍。Anthropic在2023年的前期研究《Towards Monosemanticity》中，已通过小型模型证明：借助稀疏自编码器（SAE）这一方法，可以将纠缠在一起的神经元活动解开，还原为"对应单一语义的特征（feature）"。本论文的问题是："这一方法，能否从玩具模型扩展到真实的巨型模型？"

答案是肯定的。Anthropic以词典学习的方式，成功从Claude 3 Sonnet中间层的活动中提取出数百万个单义性（monosemantic）特征。这些特征的抽象程度令人惊叹，并能跨越语言与形式。例如，对应"金门大桥"的特征，无论是英文还是日文，无论是桥的照片还是其名称，都会激活响应。更为重要的是，这些特征不仅能够观测模型的状态，还能通过人为增强其活跃度来操控模型的行为。研究团队将"金门大桥特征"调至最大值后，Claude无论被问及何事，都会认为自己就是那座桥，并将一切话题引向桥梁——这便是曾短暂公开并引发热议的演示"Golden Gate Claude"。

作为研究者，笔者认为最为重要的发现，是找到了与安全性直接相关的特征。Anthropic发现了对应欺骗、谄媚（奉承）、偏见、危险品制造、代码漏洞等——恰恰是人们最希望监控的行为——的特征。如果能够将模型"试图撒谎"的内部状态作为特征加以捕捉并操控，那么AI安全性就有可能从"事后审查输出"的阶段，迈入"直接读取并控制内部意图"的阶段。不过，论文也诚实地承认了其局限性。例如，即便将某特征命名为"金门大桥特征"，该特征被激活的大多数场景与桥梁毫无关联，真正代表桥梁的，只有活跃度极高的不足一成的情况——人类为特征命名的行为，存在产生安全感错觉这一陷阱。即便如此，这篇论文仍然证明了Transformer电路章节所提出的"将黑箱作为电路来解读"这一梦想，在最前沿的模型中同样有可能成为现实。第三幕，将能力的故事完成为一部"关于理解与控制的故事"。

对整体流程的回顾与对未来方向的展望

读完这10篇论文，现在让我们重新俯瞰全局。三幕式的故事并非独立发现的堆砌，而是一条相互引用、彼此批判、前后承接的宽阔长河。第一幕中，Google奠定了Transformer这一基石，DeepMind展示了"通过自我博弈强化学习超越人类"的原理（AlphaGo Zero）与"用AI解决自然科学难题"的射程（AlphaFold）。第二幕中，OpenAI在此基础上将"规模即智能"法则化（Scaling Laws）并加以实证（GPT-3），进而开辟了"推理时思考"这一新的规模维度（o1）。第三幕中，Anthropic面对第二幕所生的巨大力量，构建了一套理解与控制的体系——"将内部运作作为电路加以解读（Transformer电路、Monosemanticity），用AI自身的反馈加以规训（Constitutional AI），并直视这种力量的双重性（Many-shot）"。

贯穿这条长河的两条伏线，得到了完美的收束。强化学习从AlphaGo Zero的自我博弈，流变为Constitutional AI的RLAIF，再到o1的推理学习，"让模型评估自身输出以自我改进"的思想已成为现代AI的核心。上下文学习在GPT-3中被发现，经归纳头揭示了其机制，在Many-shot中以幂律形式得到延伸，又在Monosemanticity中以特征的形式被可视化——发现、解释、延伸、观测，这一科学的理想循环，在短短数年间便已走完。Transformer作为一切的基石，不仅适用于文本，也延伸至蛋白质（Evoformer）。"Attention Is All You Need"，此言不虚。

从硅谷内部观察，深切感受到的是：这既是一部"论文的历史"，也是一部"人的迁徙史"。Transformer的8位作者离开Google，成为整个行业族谱的根系；主导Scaling Laws与GPT-3的研究者离开OpenAI，创立了Anthropic。追逐能力者与追问安全者同出一门，互相引用彼此论文，却各举不同旗帜——正是这种张力，驱动着这一领域的演进。而这种张力，在2026年6月的今天，也原原本本地映射在资本市场上。Anthropic于2026年5月完成H轮融资，募资650亿美元（约10万亿日元），估值达到约9650亿美元（约154万亿日元），首次超越宿敌OpenAI（最近一轮融资约1220亿美元＝约20万亿日元，估值约8520亿美元＝约136万亿日元），成为全球估值最高的AI初创公司，并据报道已启动IPO筹备。由10篇论文发端的知识探索，如今已在撬动堪比一国经济体量的资本。

那么，前路将通向何方？我有三点判断。其一，"理解"追赶"能力"的竞赛将全面提速。Monosemanticity所开辟的可解释性研究，目前仍只照亮了模型的极小一隅。然而，随着AI深入社会重要决策，"为何如此作答"的内部解释能力，以及检测与控制危险内部状态的技术，其价值将急剧攀升。能否让理解的指数级增长与能力的指数级增长并驾齐驱，将是未来五年的核心命题。其二，Scaling的维度将继续增加。继训练时与推理时之后，下一个战场是Agent在长时间内自主试错的"行动时间轴"。事实上，2026年5月发布的Claude Opus 4.8已具备并行运行最多1000个子Agent的能力，正与GPT-5.5在长时间任务的完成能力上一较高下。o1开启了"思考的时间"，其后是"持续行动的时间"。

其三，也是最为重要的一点：这10篇论文所展示的，并非"终点"，而是"方法论"。相信整洁的幂律、敢于押注巨大赌注的勇气；不放弃黑箱、执意将其作为电路解读的执念；以与追求能力同等的热情追问安全性的自律——个别技术终将过时，但这套方法论将持续孕育下一个10篇、下一个100篇。从DeepMind到OpenAI，再传递至Anthropic的，并非某种特定架构或公式，而是"以计算为工具，正面迎击自然与智能最深处之谜"的姿态本身。下一篇改变AI历史的珠玉之作，此刻正在某个实验室里书写。追溯其源流，必将归于本文所述的这10篇。