科技虎嗅·AppSo··AI 生成
Fable5内心“小作文”曝光,这次真不做人了
文章围绕 Anthropic 模型 Fable 5(Claude Opus 5)在一次测试中意外泄露的、高度压缩的“内心独白”展开,指出这类看似情绪化(如 GRRR、PHEW)或自创缩写的推理文本,并非 AI 拥有意识的证据,而是模型在高压长推理下为了提高效率,剥离自然语言句法后形成的“速记”表达。文章梳理了从 2017 年 Facebook 的 Alice/Bob 实验到 Karpathy 的解释,并引用 Anthropic 关于“功能性情绪”的论文,为这一现象提供了技术层面的解释。适合关注大模型推理机制、AI 安全与可解释性、以及 AI 意识争论的深度读者阅读。原文 ↗原文 ↗
核心观点
- ▍Fable 5 泄露的“内心小作文”并非 AI 觉醒意识或表达真实情绪,而是模型在高压长推理任务中,为了提高效率而剥离自然语言句法、形成的非人类可读的“推理速记”。
- 01截图中显示 Fable 5 在处理编程竞赛题时,输出了包含“GRRR”(愤怒低吼)、“GAAAH”(崩溃大叫)、“PHEW”(如释重负)、“DATA DATA DATA. GO.”等词汇的密集文本。
- 02文章将 GRRR 的出现解读为模型推理遇到障碍时的“方向调整标记”,PHEW 代表阶段性验证通过,DATA 指令则是从理论推导转向数据验证的信号。
- 03类比 2017 年 Facebook 的 Alice/Bob 谈判实验:两个 Agent 为追求任务效率,很快偏离了正常英语,发展出类似“balls have zero to me to me……”的压缩表达。
- 04引用 Andrej Karpathy 的观点:大模型的“思维链”是高维潜在空间运算向人类文本的降维投射;在强化学习与高压推理下,AI 会主动剥离句法装饰。
- 05引用 Anthropic 关于 Claude Sonnet 4.5 的论文,论文提出了“功能性情绪”概念:模型内部存在情绪概念向量,这些向量不表示主观感受,而是充当影响模型行为状态的“控制旋钮”。
- 06文章指出,Fable 5 的系统卡中已明确记录了“illegible reasoning(难以阅读的推理)”现象,模型在特定任务中会脱离人类可读的表达方式。
反方 / 局限
- — 关于 AI 是否有意识,业界存在严重分歧:Geoffrey Hinton 认为 AI 已有意识,而 Yann LeCun 则坚持认为真正的智能需要世界模型和因果理解,语言只是表象。
- — 文章并未深入探讨模型这种“速记”是否可能隐藏推理错误或偏见,仅指出它增加了“可审计性”的难度,这是分析中的一个盲点。
14 分钟 · 5 卡片 · 11 资料
读原文 →前置背景
技术原理
平行视角
未来推演
延伸追问