7.7
深览指数
科技微博·量子位··AI 生成

刚刚,Claude Mythos 5发布!5000万行代码1天搞定

Anthropic 发布旗舰大模型 Claude Fable 5 与 Mythos 5,两者为同一底层模型,Mythos 5 是解除了安全限制的满血版,仅向受信任用户开放。本文以大量 Benchmark 与 Demo 展示 Fable 5 在软件工程、视觉、长上下文与生命科学等领域的统治力,并重点剖析了 Anthropic 构建的「模型路由」安全机制——将风险分类器与模型降级嵌入产品架构。文章还引用 Ethan Mollick 的测试体验,提出人类与 AI 协作范式已从「巫师施咒」转变为「甲方委托工作室」。对于深度读者,这是一份了解当前最强 AI 能力边界与产品形态变革的一手资料。

核心观点
  • Claude Fable 5 和 Mythos 5 是目前最强的公开与受限大模型,其真正突破不在于单轮问答,而在于执行长周期、高复杂度的自主任务,这正推动人类与 AI 的协作范式从「操控工具」转向「委托甲方」。
  • Anthropic 为 Fable 5 构建了基于模型路由的安全架构:由分类器检测高风险请求(网络安全、生物化学、模型蒸馏),自动将任务降级至 Opus 4.8 处理,而非单纯拒绝,这标志着前沿 AI 产品进入「能力与安全分离」的权限时代。
  1. 01在 SWE-bench Pro 上,Fable 5 得分 80.3%,远超 GPT-5.5 的 58.6%。在 Stripe 的 5000 万行 Ruby 代码库迁移中,原需工程团队两个多月的工作量,Fable 5 一天完成。
  2. 02在视觉基准 GDPpdf 上,Fable 5/Mythos 5 (29.8%) 超越 Opus 4.8 (22.5%) 与 GPT-5.5 (24.9%)。在《宝可梦·火红版》游戏中,Fable 5 实现了无需外部地图的「原生视觉盲打」通关。
  3. 03在 Hebbia 金融基准测试中,Fable 5 取得了行业最高分。数据分析平台 Hex 指出,Fable 5 是首个在其核心分析基准中突破 90% 的模型,比 Opus 提升 10 个百分点。
  4. 04满血版 Mythos 5 可独立执行生物学家的完整工作流,其设计的 14 个蛋白质靶向复合物中,9 个已进入真实药物研发管线。在基因组学研究中,Mythos 5 自主训练出的微型模型击败了近期《Science》论文的成果。
  5. 05API 定价大幅下降:每百万输入/输出 Token 分别为 10 美元/50 美元,相比预览版砍掉一半以上。但 Anthropic 要求 Mythos 级模型所有流量保留 30 天用于安全监控。
  6. 06沃顿教授 Ethan Mollick 的测试显示,Fable 5 可自主解析一份 15 页的项目文档,在 9 小时内自主调度多 Agent 完成调研、校对、纠错并交付成品,过程中人类无需介入。
反方 / 局限
  • Fable 5 的降级分类器调校保守,正常请求(如生物学家研究病毒、安全工程师做攻防演练)可能被误伤。Anthropic 承认当前护栏比理想状态更严格。
  • 数据留存政策对企业客户构成现实的数据治理问题:使用最强能力需接受更高等级的安全审查和数据留存,前沿模型的成本不止体现于 API 账单。超过 95% 的会话不触发降级,但剩余 5% 的风险路径影响用户体验。
  • Anthropic 在呼吁所有 AI 研究停止后不久便发布强大模型,被观察者认为存在营销策略上的矛盾。作者也指出这种「一级戒备」与产品发布的节奏可能让外界困惑。
AnthropicEthan MollickClaude Fable 5Claude Mythos 5Opus 4.8SWE-bench ProGDPpdfHebbia Finance Benchmark模型路由Token 效率Stripe《宝可梦·火红版》《杀戮尖塔》
14 分钟 · 4 卡片 · 11 资料
读原文 →

平行视角

争议局限

未来推演

延伸追问