5.6
深览指数
科技36 氪·CSDN··AI 生成

5000万行代码迁移一天搞定,Anthropic重磅发布Claude Fable 5、Mythos 5

Anthropic 发布两款新旗舰模型 Fable 5 和 Mythos 5,宣称在软件工程、知识工作、视觉理解等多个基准测试中超越 GPT-5.5 等竞品。核心亮点包括:Stripe 用 Fable 5 在一天内完成 5000 万行代码库迁移(人类团队需两月);模型具备主动收集数据验证假设的“工程直觉”。文章详细对比了双版本差异——Fable 5 为大众版带安全降级,Mythos 5 为严格审查的“满血版”,并透露定价与 30 天数据留存政策。适合关注前沿 AI 能力与安全博弈的开发者、技术决策者。

核心观点
  • Claude Fable 5 与 Mythos 5 代表了当前 Claude 系列的能力上限,在软件工程、视觉理解等多项基准上超越 GPT-5.5,但其顶尖能力伴随更严格的安全管控与数据留存机制。
  1. 01Stripe 使用 Fable 5 在一天内完成约 5000 万行 Ruby 代码库迁移,而人类工程团队通常需要两个月以上。
  2. 02在 SWE-bench Pro 上,Fable 5 / Mythos 5 达到 80.3%,显著高于 GPT-5.5 的 58.6%;在 FrontierCode Diamond 基准上得分为 29.3%,远高于 Opus 4.8 的 13.4% 和 GPT-5.5 的 5.7%。
  3. 03在知识能力测试 G D Pval-AA 中,Fable 5 / Mythos 5 得分 1932,高于 GPT-5.5 的 1769 和 Gemini 3.1 Pro 的 1314。
  4. 04Fable 5 依靠纯视觉识别即可通关《宝可梦:火红》,而此前版本的 Claude 模型即使搭配辅助程序也难以做到。
  5. 05Fable 5 的定价为输入 10 美元/百万 tokens,输出 50 美元/百万 tokens,虽较 Mythos Preview 下降一半,但仍处于主流大模型定价高位。
反方 / 局限
  • Fable 5 引入了全新安全分类器,当用户问题触及网络安全、生物化学等敏感领域时,模型会自动降级到旧版 Opus 4.8 回复,这种“静默降级”的安全设计引发争议,实际可用性在敏感场景下可能受限。
  • 从 6 月 23 日起,Fable 5 将从 Pro、Max、Team 等订阅套餐中移除,用户需消耗使用额度才能继续使用,高昂的定价和复杂的收费规则可能影响实际开发者的持续性使用。
AnthropicClaude Fable 5Claude Mythos 5Boris ChernyDeedy DasAndrej KarpathyStripeMenlo VenturesGPT-5.5SWE-bench ProFrontierCode DiamondProject Glasswing
12 分钟 · 2 卡片 · 6 资料
读原文 →

前置背景

平行视角