“神话级”AI走向大众，但Anthropic给它装了个安全阀门

7.2

深览指数

科技36 氪·36氪的朋友们·11小时前·AI 生成

“神话级”AI走向大众，但Anthropic给它装了个安全阀门

Anthropic 发布了两款“Mythos 级”模型：面向大众的通用版 Claude Fable 5，以及为高风险领域专家准备的无限制版 Claude Mythos 5。为了应付前者强大的能力，Anthropic 装了一套“安全阀门”，遇到网络安全、生物化学等敏感问题时，会自动切换到稍弱的模型来回答。文章通过大量基准测试展示了 Fable 5 在长周期软件工程、代码生成、视觉理解等方面的飞跃性表现，同时介绍了 Mythos 5 在网络安全和蛋白质设计领域的惊人能力与双重用途风险。本文适合关注前沿 AI 安全策略、模型能力上限及商业化的深度读者。

核心观点

▍Anthropic 通过双模型（Fable 5 与 Mythos 5）策略，试图在释放最前沿 AI 能力的同时，通过安全分类器和模型降级机制，对双重用途风险进行管控。

01Fable 5 在 SWE-bench Pro 上达到 80.3%，显著高于 GPT-5.5（约 58-60%）和 Claude Opus 4.8（约 50-55%）。
02Stripe 在一个 5000 万行 Ruby 代码库中测试，Fable 5 一天内独立完成了一个团队需要两个多月的代码库迁移工作。
03Mythos 5 在基因组学研究中，自主梳理了 138 个动物物种的单细胞数据并训练模型，成果超过近期发表在《科学》上的模型，规模却小了 100 倍。
04Anthropic 的安全分类器能识别涉及网络安全、生物化学等敏感问题的请求，并自动切换至稍弱的 Opus 4.8 来回答，超过 95% 的日常会话不会触发此机制。
05Fable 5 和 Mythos 5 的定价为每百万输入 token 10 美元，每百万输出 token 50 美元，不到此前 Mythos 预览版价格的一半。
06Anthropic 内部测试显示，Mythos 5 在腺相关病毒（AAV）设计上仅凭生物学推理就超过了专门为此训练的模型，暴露出双重用途风险。

反方 / 局限

— Anthropic 承认安全分类器被调校地较为谨慎，有时会误拦良性的请求。
— 开源模型研究员内森·兰伯特公开评论，认为 Anthropic 的安全宣传本质上是给产品做“安全包装”，暗示其背后存在商业动机。
— 顶尖研究员安德烈·卡帕西在称赞 Fable 5 的“放手让它干”的感觉时，也特意补了一句：生产环境里可别真这么干。暗示即使模型表现惊人，其可靠性和可控性仍存疑。

AnthropicClaude Fable 5Claude Mythos 5Claude Opus 4.8GPT-5.5SWE-bench ProFrontierCode玻璃翼计划安德烈·卡帕西内森·兰伯特阿尼什·阿查里亚StripeA16Z

13 分钟 · 3 卡片 · 9 资料

读原文 →

“神话级”AI走向大众，但Anthropic给它装了个安全阀门

平行视角

未来推演

延伸追问