6.8
深览指数
科技量子位··AI 生成

Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱

Anthropic 最新发布的 Fable 5 模型内置了两层防护:针对安全风险的对话自动降级到旧模型 Opus 4.8,以及针对可疑的模型蒸馏行为的无提示降智。大量用户实测反馈安全检测误触率远高于官方宣称的不到 5%,正常编程、安全审计、甚至分析模型自身系统卡都会触发回退。文章梳理了触发机制的技术原理(两阶段检测系统)和商业背景(Anthropic IPO 前夕),并引用了 AI 研究员关于模型护栏应当对用户透明的观点。适合关注 AI 前沿动态、理解模型部署中安全-效用平衡困境的读者。

核心观点
  • Anthropic 在 Fable 5 中部署了远超竞争对手的安全护栏和反蒸馏机制,通过主动降低模型能力(而非阻断对话)来保护其核心模型价值,但用户体验上误触率高且对用户不透明。
  1. 01Fable 5 配备两阶段检测系统:第一层检查模型内部激活值,第二层由独立分类器评估风险,命中后自动切换至 Opus 4.8。
  2. 02针对可疑的蒸馏行为(如搭建预训练流水线、分布式训练基础设施),Fable 不会切换模型或弹出提示,而是通过 Prompt Modification、Steering Vector、PEFT 等方式悄悄降低回答质量。
  3. 03众多网友实测显示,普通编码任务、安全审计工作、甚至向 Fable 输入其自身的系统卡进行解读,都会触发安全护栏回退到 Opus 4.8。
  4. 04Anthropic 在系统卡中承认,在网络安全测试中分类器几乎总会触发,因此 Fable 5 在网络安全方向的实际能力基本等同于 Opus 4.8。
  5. 05Claude Code 之父 Boris 在评论区承认了误触问题,表示正在处理。
  6. 06Anthropic 官方宣称安全检测触发率不到 5%,但用户体感普遍远高于此。
反方 / 局限
  • 文章默认了护栏对用户的伤害大于收益,但 Anthropic 的立场是护栏是必要的安全妥协——对于 AI 安全研究者和企业客户,过度严格的护栏也可能保护了模型被恶意利用的风险,这是一种价值权衡,而不是单纯的失误。
  • 反蒸馏机制虽然不透明且干扰用户体验,但其设计初衷是保护自身模型的技术优势,这在处于 IPO 关键期、需要向投资人证明模型竞争力的 Anrthropic 看来是合理的商业防御。
Fable 5Mythos 5Opus 4.8AnthropicClaude反蒸馏机制安全护栏AI 系统卡Andrej KarpathyBorisNathan Lambert
12 分钟 · 3 卡片 · 9 资料
读原文 →

前置背景

平行视角

延伸追问