Claude Fable 5 上线第一天：贵一倍，但有件事比跑分更值得看

7.8

深览指数

科技人人都是产品经理·阿铭Ziven·9小时前·AI 生成

Claude Fable 5 上线第一天：贵一倍，但有件事比跑分更值得看

本文不是一篇性能跑分报告，Anthropic 首次将内部最高安全等级的 Mythos 级模型向公众开放才是真正看点。作者分析了 Fable 5 在 Stripe 5000万行代码库迁移中一天顶团队两个月工时长程任务案例，指出其安全分类器降级机制是「模型分流」而非硬性拒答的产品化设计。适合关注 LLM 前沿进展、Agent 长程任务落地的技术决策者和开发者阅读。

核心观点

▍Claude Fable 5 真正值得关注的是 Anthropic 首次将 Mythos 级模型向公众开放，标志着其安全策略与商业节奏的转折点。
▍Fable 5 的核心差异化价值不在跑分，其长程任务（long-horizon）处理能力——Stripe 案例中一天完成原定两个月的代码迁移——才是重新定义 AI agent 边界的关键。

01Fable 5 在 SWE-Bench Pro 获 80.3 分，领先自家 Opus 4.8（69.2）11 分，领先 GPT-5.5（58.6）超 20 分。
02Stripe 将 Fable 5 接入其 5000 万行 Ruby 代码库做版本迁移，原排一个团队两个月工期（约 352 工时），Fable 5 用一天完成。
03Fable 5 的安全分类器遇到三类高风险问题（生化、网安、模型蒸馏）时，不是拒答而是将回答任务切换给更保守的 Claude Opus 4.8 执行。
04Fable 5 定价为输入 $10/M token，输出 $50/M token（Opus 4.8 的两倍），但 prompt caching 命中部分有 90% 折扣，6月9日至22日免费开放。
05Anthropic 同时发布的 Claude Mythos 5 去掉分类器，通过 Glasswing 通道在 15 国约 150 个组织推广。

反方 / 局限

— 作者承认未能复现出安全分类器降级的触发边界，且 Anthropic 未公开分类器阈值，外部红队 1000 小时也未找到通用绕过，用户无法验证该机制的实际效果。
— Fable 5 价格翻倍，作者分析认为单次 chat/短 prompt/客服问答等场景下 Opus 4.8 完全够用，评估决策需区分使用场景。

Claude Fable 5Mythos 级AnthropicStripeOpenAIGitHubMario RodriguezMichael TruellSWE-Benchlong-horizon 长程任务安全分类器（classifier）Project Glasswing

8 分钟 · 5 卡片 · 14 资料

读原文 →

Claude Fable 5 上线第一天：贵一倍，但有件事比跑分更值得看

前置背景

平行视角

争议局限

未来推演

延伸追问