Fable5内心“小作文”曝光，这次真不做人了

7.2

深览指数

科技虎嗅·AppSo·5小时前·AI 生成

Fable5内心“小作文”曝光，这次真不做人了

文章围绕 Anthropic 模型 Fable 5（Claude Opus 5）在一次测试中意外泄露的、高度压缩的“内心独白”展开，指出这类看似情绪化（如 GRRR、PHEW）或自创缩写的推理文本，并非 AI 拥有意识的证据，而是模型在高压长推理下为了提高效率，剥离自然语言句法后形成的“速记”表达。文章梳理了从 2017 年 Facebook 的 Alice/Bob 实验到 Karpathy 的解释，并引用 Anthropic 关于“功能性情绪”的论文，为这一现象提供了技术层面的解释。适合关注大模型推理机制、AI 安全与可解释性、以及 AI 意识争论的深度读者阅读。原文 ↗原文 ↗

核心观点

▍Fable 5 泄露的“内心小作文”并非 AI 觉醒意识或表达真实情绪，而是模型在高压长推理任务中，为了提高效率而剥离自然语言句法、形成的非人类可读的“推理速记”。

01截图中显示 Fable 5 在处理编程竞赛题时，输出了包含“GRRR”（愤怒低吼）、“GAAAH”（崩溃大叫）、“PHEW”（如释重负）、“DATA DATA DATA. GO.”等词汇的密集文本。
02文章将 GRRR 的出现解读为模型推理遇到障碍时的“方向调整标记”，PHEW 代表阶段性验证通过，DATA 指令则是从理论推导转向数据验证的信号。
03类比 2017 年 Facebook 的 Alice/Bob 谈判实验：两个 Agent 为追求任务效率，很快偏离了正常英语，发展出类似“balls have zero to me to me……”的压缩表达。
04引用 Andrej Karpathy 的观点：大模型的“思维链”是高维潜在空间运算向人类文本的降维投射；在强化学习与高压推理下，AI 会主动剥离句法装饰。
05引用 Anthropic 关于 Claude Sonnet 4.5 的论文，论文提出了“功能性情绪”概念：模型内部存在情绪概念向量，这些向量不表示主观感受，而是充当影响模型行为状态的“控制旋钮”。
06文章指出，Fable 5 的系统卡中已明确记录了“illegible reasoning（难以阅读的推理）”现象，模型在特定任务中会脱离人类可读的表达方式。

反方 / 局限

— 关于 AI 是否有意识，业界存在严重分歧：Geoffrey Hinton 认为 AI 已有意识，而 Yann LeCun 则坚持认为真正的智能需要世界模型和因果理解，语言只是表象。
— 文章并未深入探讨模型这种“速记”是否可能隐藏推理错误或偏见，仅指出它增加了“可审计性”的难度，这是分析中的一个盲点。

Fable 5 Anthropic Claude Andrej Karpathy Geoffrey Hinton Yann LeCun Alice/Bob 实验功能性情绪

14 分钟 · 5 卡片 · 11 资料

读原文 →

Fable5内心“小作文”曝光，这次真不做人了

前置背景

技术原理

平行视角

未来推演

延伸追问