刚刚，Claude Mythos 5发布！5000万行代码1天搞定

7.7

深览指数

科技微博·量子位·13小时前·AI 生成

刚刚，Claude Mythos 5发布！5000万行代码1天搞定

Anthropic 发布旗舰大模型 Claude Fable 5 与 Mythos 5，两者为同一底层模型，Mythos 5 是解除了安全限制的满血版，仅向受信任用户开放。本文以大量 Benchmark 与 Demo 展示 Fable 5 在软件工程、视觉、长上下文与生命科学等领域的统治力，并重点剖析了 Anthropic 构建的「模型路由」安全机制——将风险分类器与模型降级嵌入产品架构。文章还引用 Ethan Mollick 的测试体验，提出人类与 AI 协作范式已从「巫师施咒」转变为「甲方委托工作室」。对于深度读者，这是一份了解当前最强 AI 能力边界与产品形态变革的一手资料。

核心观点

▍Claude Fable 5 和 Mythos 5 是目前最强的公开与受限大模型，其真正突破不在于单轮问答，而在于执行长周期、高复杂度的自主任务，这正推动人类与 AI 的协作范式从「操控工具」转向「委托甲方」。
▍Anthropic 为 Fable 5 构建了基于模型路由的安全架构：由分类器检测高风险请求（网络安全、生物化学、模型蒸馏），自动将任务降级至 Opus 4.8 处理，而非单纯拒绝，这标志着前沿 AI 产品进入「能力与安全分离」的权限时代。

01在 SWE-bench Pro 上，Fable 5 得分 80.3%，远超 GPT-5.5 的 58.6%。在 Stripe 的 5000 万行 Ruby 代码库迁移中，原需工程团队两个多月的工作量，Fable 5 一天完成。
02在视觉基准 GDPpdf 上，Fable 5/Mythos 5 (29.8%) 超越 Opus 4.8 (22.5%) 与 GPT-5.5 (24.9%)。在《宝可梦·火红版》游戏中，Fable 5 实现了无需外部地图的「原生视觉盲打」通关。
03在 Hebbia 金融基准测试中，Fable 5 取得了行业最高分。数据分析平台 Hex 指出，Fable 5 是首个在其核心分析基准中突破 90% 的模型，比 Opus 提升 10 个百分点。
04满血版 Mythos 5 可独立执行生物学家的完整工作流，其设计的 14 个蛋白质靶向复合物中，9 个已进入真实药物研发管线。在基因组学研究中，Mythos 5 自主训练出的微型模型击败了近期《Science》论文的成果。
05API 定价大幅下降：每百万输入/输出 Token 分别为 10 美元/50 美元，相比预览版砍掉一半以上。但 Anthropic 要求 Mythos 级模型所有流量保留 30 天用于安全监控。
06沃顿教授 Ethan Mollick 的测试显示，Fable 5 可自主解析一份 15 页的项目文档，在 9 小时内自主调度多 Agent 完成调研、校对、纠错并交付成品，过程中人类无需介入。

反方 / 局限

— Fable 5 的降级分类器调校保守，正常请求（如生物学家研究病毒、安全工程师做攻防演练）可能被误伤。Anthropic 承认当前护栏比理想状态更严格。
— 数据留存政策对企业客户构成现实的数据治理问题：使用最强能力需接受更高等级的安全审查和数据留存，前沿模型的成本不止体现于 API 账单。超过 95% 的会话不触发降级，但剩余 5% 的风险路径影响用户体验。
— Anthropic 在呼吁所有 AI 研究停止后不久便发布强大模型，被观察者认为存在营销策略上的矛盾。作者也指出这种「一级戒备」与产品发布的节奏可能让外界困惑。

AnthropicEthan MollickClaude Fable 5Claude Mythos 5Opus 4.8SWE-bench ProGDPpdfHebbia Finance Benchmark模型路由Token 效率Stripe《宝可梦·火红版》《杀戮尖塔》

14 分钟 · 4 卡片 · 11 资料

读原文 →

刚刚，Claude Mythos 5发布！5000万行代码1天搞定

平行视角

争议局限

未来推演

延伸追问