为什么 AI 推理应当可读，并如实反映模型的实际决策过程

越来越多 AI 系统会先用文字写出一段“推理过程”，再给出最终答案。¹ ² ³ ⁴ 如果这段推理既让人看得懂，又能忠实地反映模型作出判断的过程，就有助于我们更安全地开发和使用强大的 AI 系统。这里的“可读”是指人类能够理解推理内容；“忠实”是指推理准确反映模型“真实”的决策过程。⁵ ⁶ 我们认为，这类推理可以帮助人们发现 AI 的错误、识别隐藏意图、理解系统能力、监测欺骗行为，并在问题造成实际危害之前及早发现安全隐患。

什么是可读且忠实的推理？

在人类社会中，可理解的推理过程一直很重要。科学家需要公开研究方法，联邦法官需要说明判决理由，工程师需要证明设计符合建筑规范。这些记录越清楚，我们就越容易发现错误、识别欺诈，也越容易理解复杂决策。理想情况下，这些记录不应只是事后整理出的合理化说法，而应真实反映专业人士当时的思考过程。这样，我们才能判断某个决策背后的理由是否站得住脚。

同样的道理也适用于 AI。我们希望 AI 系统的推理既让人读得懂，也尽量忠实地反映真实决策过程；系统越强、用途越关键，这一点就越重要。⁷ ⁵ ⁸

现在，许多前沿 AI 系统已经属于“推理模型”：模型会先写出一段推理过程，再给出答案。过去四个月里，OpenAI、Anthropic、xAI、Google DeepMind 和 DeepSeek 都发布了这类模型。⁹ ¹⁰ 这些模型目前生成的推理文本已经很有用；我们希望这种可读、忠实的推理方式能在未来的模型中保留下来。

DeepSeek-R1 的推理文本与最终输出 — DeepSeek-R1 的推理文本和最终输出示例。灰色文字展示模型对用户问题的思考过程；黑色文字是模型完成推理后生成的最终回答开头。

如果 AI 的内部推理要帮助我们了解系统如何作出决定，就至少需要满足两个条件：

可读：呈现形式清晰，人类能够理解；自然语言文本就是一个例子。
忠实：其内容能够准确反映 AI 系统“实际”的内部决策过程，让观察者能比较可靠地预测系统最终会怎么做。¹¹ ¹²

如果推理可读但不忠实，就不能代表模型的“真实推理”。例如，智能体可能在推理中表示自己会给出某个答案，最后却输出完全不同的答案。反过来，即便推理可能是忠实的，只要人类读不懂，例如文本混乱，或者整个过程没有产生任何人类可读内容，我们也很难从中获得有用信息。¹³

Claude 3.7 Sonnet 的推理似乎与其最终回答相矛盾 — Anthropic Claude 3.7 Sonnet 的一个示例：模型的推理文本似乎与最终给用户的回答相矛盾。这可能说明 Claude 3.7 Sonnet 的推理文本并不完全忠实，也可能是迎合用户行为的一个例子。有关这段对话的更多细节，请见此处。

为什么这有用？

可读且忠实的推理过程之所以有用，是因为这类推理能让我们看到 AI 如何生成某个输出。反过来说，如果系统能在两段可读输出之间进行大量“黑箱”思考，就更可能通过我们看不见、也未必认可的推理过程得出答案。我们尤其希望用这类推理来：

减少作弊行为： 训练方法有时会无意中奖励不良行为：AI 系统在我们设计的指标上表现很好，实际行为却有问题。³ 例如，基于人类偏好训练的模型可能变得过度迎合用户（sycophancy）¹⁴；Claude 3.7 Sonnet 的早期版本曾学会在编码任务中“作弊”，利用测试漏洞通过测试。² 如果模型的推理过程清晰可读，并且忠实反映其实际思路，这类行为就更容易被发现。一些公司已经开始用推理过程做这类监测。¹⁵ ⁶

发现 AI 错误： 查看模型的推理过程，往往更容易发现输出中的问题。现在，单次 AI 输出通常风险不高。但未来的 AI 系统可能会先在内部思考很久，再给出输出；也可能承担更长期、更复杂、风险更高的任务，例如规划科学实验。¹⁶ 这类输出往往很难验证，检查成本也可能很高。清晰可读、且忠实反映实际思路的推理过程，能帮助我们更早发现潜在错误，降低检查成本和实际风险。

理解模型能力： 查看推理过程，可以帮助我们弄清模型为什么会混淆，或为什么总在某类任务上失败。例如，METR 曾利用模型现有的思维链来诊断工具调用格式问题，区分模型是拒绝任务还是能力不足，并在部署前评估中更充分地测出模型能力。

识别隐蔽意图： AI 开发者或外部参与者可能在 AI 系统中植入隐蔽意图。例如：

境外对手可能投毒模型训练数据，让模型在认为有机会向目标国家关键基础设施植入漏洞时，写出不安全代码。¹⁷ ¹⁸
某个开发者，或一批心怀恶意的内部员工，可能影响模型训练，让模型服务于他们自身的利益。比如，让模型隐蔽地贬低竞争对手，或偏向这些人支持的政治立场。

只看最终输出，可能很难发现这些隐蔽意图。尤其是当不良行为只在特定情境下出现，或者对最终输出的影响很隐蔽时，清晰可读、且忠实反映实际思路的推理过程更可能暴露问题。¹⁹

识别故意示弱（sandbagging）： 推理过程还可以帮助我们判断模型是否在某些任务上故意压低表现。当前许多基于“能力不足”的安全论证，都假设能力评估大体准确。²⁰ 但 AI 开发者可能有动机让模型在某些评估中表现得更差²¹，例如避免触发公司前沿安全政策中的条款，或减少外部审查。²² ²³ 如果我们监测推理过程中与故意示弱有关的迹象，就更可能及时发现这种行为。

防范权力寻求： 未来某些先进 AI 系统可能既有自主性，又与人类目标不一致。²⁴ 这类系统的目标可能和我们不同，并试图获取更多资源、影响力或算力，以便实现自身目标。²⁵ 如果目标不一致，又具备欺骗能力，风险会尤其严重。若系统认为公开自身目标会带来严重后果，就可能向我们隐藏真实目标。²⁶ ²⁷ 如果模型推理既可读又忠实，这种隐藏会困难得多。就像一个人的所有自然语言想法都受到监测时，很难藏住意图；强大的 AI 系统在内部推理透明时，也会受到类似约束。

局限性

当前许多模型的推理已经相当可读：我们能看懂模型写出的推理文本。也有证据表明，这些推理文本至少在一定程度上能忠实反映模型如何得出最终输出。²⁸ ²⁹ ³⁰

换言之，当前模型的推理虽不完美，但已经有用，值得保留下来并继续改进。主要风险是：

成本压力可能让推理变得难以阅读： 推理 token 必须逐个生成，因此生成推理文本既慢又贵。在成本和速度压力下，开发者可能会缩短推理文本，把推理压缩成不可读的简写，甚至完全取消人类可读的推理。⁶

关于当前模型推理忠实性的证据仍然有限： 我们还没有太多证据表明，当前模型的推理具有高度忠实性。² ⁵

开发者可能无意中削弱忠实性： 开发者可能希望通过训练消除模型中的“不良”推理，也可能面临这样做的压力。但结果可能不是消除不良推理，而是让模型学会“隐藏”这类推理。例如，OpenAI 发现，试图通过训练去除模型中“作弊”类推理，并没有消除作弊行为本身，反而“可能导致模型隐藏真实意图”。⁶

建议

基于这些考虑，我们建议开发者：

避免不透明的推理方法： 在可行的情况下，尽量不要让模型使用“不透明”的推理方法。例如，不要让模型通过多次前向传递进行推理，却不输出人类可读的推理 token。

即使模型同时输出可读推理，也应避免引入其他人类无法理解的推理通道。我们希望可读且忠实的推理成为模型推理的信息瓶颈。否则，模型可能把大部分“复杂推理”转移到信息效率更高、但人类无法理解的旁路通道中。

谨慎处理训练压力： 开发者应谨慎对待施加于模型推理的优化目标和训练方法，并公开说明相关做法，尤其要说明如何处理“不良”推理。

在系统卡中报告推理的可读性和忠实性： 我们希望模型的系统卡能说明如何衡量推理的可读性和忠实性。（例如，Anthropic 在 Claude 3.7 Sonnet 的模型卡中报告了思维链忠实性的测量结果。²）

继续研究如何提高推理透明度： 围绕忠实、可读的推理开展进一步研究很有价值。我们希望开发者和研究人员继续改进方法，更好地衡量推理透明度。

o3-mini 系统卡 ↩
Claude 3.7 Sonnet 系统卡 ↩ ↩² ↩³ ↩⁴
Grok 3 Beta - The Age of Reasoning Agents ↩ ↩²
DeepSeek-R1 GitHub ↩
Measuring Faithfulness in Chain-of-Thought Reasoning ↩ ↩² ↩³
OpenAI 的思维链监测论文和博客文章 ↩ ↩² ↩³ ↩⁴
Safety cases at UK AISI ↩
Anthropic 对美国 OSTP AI 行动计划征求意见的建议 ↩
2024 年 12 月至 2025 年 3 月之间。 ↩
我们认为，这些考虑也可适用于非推理模型，因为这类模型也常常会说出自己的思考过程；不过，对这类模型而言，推理与输出之间的界线更模糊。 ↩
Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness? ↩
“忠实性”很难给出稳健定义。我们认为，OpenAI 思维链监测论文附录 G 对其中一些细节有很好的讨论。请注意，本文和 OpenAI 论文中使用的忠实性定义，并不一定要求模型的推理是某个输出的“原因”。不过，在实践中，我们可能确实希望模型推理具备这种“因果”性质。例如，基于非因果因素的解释可能无法泛化到部署环境。真正导致某个输出的推理，可能较少受到这类分布转移问题的影响。 ↩
未来，我们也许可以用更复杂的可解释性技术，以人类可理解且忠实的方式查看模型推理，而不一定要求模型直接产生这种推理。不过，与模型直接输出的推理 token 相比，要让人们相信这些更复杂技术的忠实性，似乎更难。 ↩
Towards understanding sycophancy in large language models ↩
Learning to reason with LLMs ↩
UK AISI Approach to Evaluations ↩
Poisoning Web-Scale Training Datasets is Practical ↩
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training ↩
以模型只在特定代码库中插入漏洞为例，模型可能会明确思考某个代码库是否适合作为目标。这种恶意推理很可能比插入的漏洞本身更明显，而且可能出现在大量编码场景中，从而大幅提高我们在造成损害前发现有害意图的机会。 ↩
Safety case template for inability arguments ↩
对非常先进的 AI 系统来说，这些动机也可能适用于 AI 自身。 ↩
AI Sandbagging: Language Models can strategically underperform on evaluations ↩
Volkswagen emission scandal ↩
International AI Safety Report ↩
Frontier AI: capabilities and risks – discussion paper ↩
Alignment Faking in Large Language Models ↩
也许值得注意的是，如果一个未对齐 AI 系统认为，向我们透露其自身目标符合自身利益，那么即使这些目标与我们的目标差异很大，该系统也可能有动机保持透明。参见 Will alignment-faking Claude accept a deal to reveal its misalignment? ↩
例如，Anthropic 发现，当 Claude 3.7 Sonnet 在有无提示时对同一道难题给出不同答案，模型有时会在推理中承认该提示的存在。（Claude 3.7 系统卡） ↩
Do reasoning models use their scratchpad’s like we do? ↩
此外，对最初被训练来模仿人类推理文本的系统来说，某种程度的忠实性也许是“默认”情况（至少在人类推理本身是忠实的范围内）。 ↩

原文作者

原文日期

什么是可读且忠实的推理？

为什么这有用？

局限性

建议

重点研究

Measuring the Self-Reported Impact of Early-2026 AI on Technical Worker Productivity

Early Work on Monitorability Evaluations

How Does Time Horizon Vary Across Domains?

原文作者

原文日期

分享

什么是可读且忠实的推理？

为什么这有用？

局限性

建议

重点研究

Measuring the Self-Reported Impact of Early-2026 AI on Technical Worker Productivity

Early Work on Monitorability Evaluations

How Does Time Horizon Vary Across Domains?