7.2
深览指数
科技36 氪·36氪的朋友们··AI 生成

“神话级”AI走向大众,但Anthropic给它装了个安全阀门

Anthropic 发布了两款“Mythos 级”模型:面向大众的通用版 Claude Fable 5,以及为高风险领域专家准备的无限制版 Claude Mythos 5。为了应付前者强大的能力,Anthropic 装了一套“安全阀门”,遇到网络安全、生物化学等敏感问题时,会自动切换到稍弱的模型来回答。文章通过大量基准测试展示了 Fable 5 在长周期软件工程、代码生成、视觉理解等方面的飞跃性表现,同时介绍了 Mythos 5 在网络安全和蛋白质设计领域的惊人能力与双重用途风险。本文适合关注前沿 AI 安全策略、模型能力上限及商业化的深度读者。

核心观点
  • Anthropic 通过双模型(Fable 5 与 Mythos 5)策略,试图在释放最前沿 AI 能力的同时,通过安全分类器和模型降级机制,对双重用途风险进行管控。
  1. 01Fable 5 在 SWE-bench Pro 上达到 80.3%,显著高于 GPT-5.5(约 58-60%)和 Claude Opus 4.8(约 50-55%)。
  2. 02Stripe 在一个 5000 万行 Ruby 代码库中测试,Fable 5 一天内独立完成了一个团队需要两个多月的代码库迁移工作。
  3. 03Mythos 5 在基因组学研究中,自主梳理了 138 个动物物种的单细胞数据并训练模型,成果超过近期发表在《科学》上的模型,规模却小了 100 倍。
  4. 04Anthropic 的安全分类器能识别涉及网络安全、生物化学等敏感问题的请求,并自动切换至稍弱的 Opus 4.8 来回答,超过 95% 的日常会话不会触发此机制。
  5. 05Fable 5 和 Mythos 5 的定价为每百万输入 token 10 美元,每百万输出 token 50 美元,不到此前 Mythos 预览版价格的一半。
  6. 06Anthropic 内部测试显示,Mythos 5 在腺相关病毒(AAV)设计上仅凭生物学推理就超过了专门为此训练的模型,暴露出双重用途风险。
反方 / 局限
  • Anthropic 承认安全分类器被调校地较为谨慎,有时会误拦良性的请求。
  • 开源模型研究员内森·兰伯特公开评论,认为 Anthropic 的安全宣传本质上是给产品做“安全包装”,暗示其背后存在商业动机。
  • 顶尖研究员安德烈·卡帕西在称赞 Fable 5 的“放手让它干”的感觉时,也特意补了一句:生产环境里可别真这么干。暗示即使模型表现惊人,其可靠性和可控性仍存疑。
AnthropicClaude Fable 5Claude Mythos 5Claude Opus 4.8GPT-5.5SWE-bench ProFrontierCode玻璃翼计划安德烈·卡帕西内森·兰伯特阿尼什·阿查里亚StripeA16Z
13 分钟 · 3 卡片 · 9 资料
读原文 →

平行视角

未来推演

延伸追问