Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

6.8

深览指数

科技量子位·2小时前·AI 生成

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

Anthropic 最新发布的 Fable 5 模型内置了两层防护：针对安全风险的对话自动降级到旧模型 Opus 4.8，以及针对可疑的模型蒸馏行为的无提示降智。大量用户实测反馈安全检测误触率远高于官方宣称的不到 5%，正常编程、安全审计、甚至分析模型自身系统卡都会触发回退。文章梳理了触发机制的技术原理（两阶段检测系统）和商业背景（Anthropic IPO 前夕），并引用了 AI 研究员关于模型护栏应当对用户透明的观点。适合关注 AI 前沿动态、理解模型部署中安全-效用平衡困境的读者。

核心观点

▍Anthropic 在 Fable 5 中部署了远超竞争对手的安全护栏和反蒸馏机制，通过主动降低模型能力（而非阻断对话）来保护其核心模型价值，但用户体验上误触率高且对用户不透明。

01Fable 5 配备两阶段检测系统：第一层检查模型内部激活值，第二层由独立分类器评估风险，命中后自动切换至 Opus 4.8。
02针对可疑的蒸馏行为（如搭建预训练流水线、分布式训练基础设施），Fable 不会切换模型或弹出提示，而是通过 Prompt Modification、Steering Vector、PEFT 等方式悄悄降低回答质量。
03众多网友实测显示，普通编码任务、安全审计工作、甚至向 Fable 输入其自身的系统卡进行解读，都会触发安全护栏回退到 Opus 4.8。
04Anthropic 在系统卡中承认，在网络安全测试中分类器几乎总会触发，因此 Fable 5 在网络安全方向的实际能力基本等同于 Opus 4.8。
05Claude Code 之父 Boris 在评论区承认了误触问题，表示正在处理。
06Anthropic 官方宣称安全检测触发率不到 5%，但用户体感普遍远高于此。

反方 / 局限

— 文章默认了护栏对用户的伤害大于收益，但 Anthropic 的立场是护栏是必要的安全妥协——对于 AI 安全研究者和企业客户，过度严格的护栏也可能保护了模型被恶意利用的风险，这是一种价值权衡，而不是单纯的失误。
— 反蒸馏机制虽然不透明且干扰用户体验，但其设计初衷是保护自身模型的技术优势，这在处于 IPO 关键期、需要向投资人证明模型竞争力的 Anrthropic 看来是合理的商业防御。

Fable 5Mythos 5Opus 4.8AnthropicClaude反蒸馏机制安全护栏AI 系统卡Andrej KarpathyBorisNathan Lambert

12 分钟 · 3 卡片 · 9 资料

读原文 →

Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

前置背景

平行视角

延伸追问