5.9
深览指数
科技量子位··AI 生成
Claude Fable 5省钱秘诀来了:调成Low档比Opus更便宜
Anthropic 新模型 Claude Fable 5 定价为 Opus 4.8 的两倍,但开发者发现将其「努力程度」调至 Low 档后,在 SWE-bench Pro 等多项基准测试中表现依然超越 Opus。文章核心观点是:更聪明的模型因减少试错和纠错,整体任务成本反而可能更低。作者引用来自 Claude Code 之父和多位开发者的观察,列举了编程、电子表格、物理研究等案例,说明 Fable 5 在 token 效率和任务完成速度上的优势。这篇文章适合正在选型 AI 模型、关注 AI 应用成本的研发人员或技术决策者阅读。
核心观点
- ▍Claude Fable 5 虽然单价是 Opus 4.8 的两倍,但由于其更高的智能和效率,在复杂任务上的总 token 消耗更少,实际账单可能更低。
- ▍将 Fable 5 的 effort 参数调至最低的「low」档,在多项基准测试中仍能超过 Opus 4.8 的最高档。
- 01在 SWE-bench Pro 上,Fable 5 low 档得分 75.0,Opus 4.8 xhigh 档得分 68.6。
- 02在 GameBench 的蜘蛛吃虫子小游戏任务中,Fable 5 生成速度更快、效果更好,最终成本低于 Opus 4.8。
- 03Claude Code 之父 Boris Cherny 解释称,Fable 5 完成同一任务平均使用的 token 更少,因为它「更聪明、更高效」。
- 04在 shortcut 的电子表格任务测试中,Fable 5 在所有 effort 档位均跑赢 Opus 4.8,回合数更少,速度提升 25%-30%。
- 05在物理研究任务中,Fable 5 用三分之一推理 token,在 36 小时内达到 GPT-5.5 需要四天才能接近的水平。
- 06在 Artificial Analysis 智能指数中,Fable 5 以 64.9 分排名第一;在 Humanity's Last Exam 上获得 53% 成绩,远超第二名。
反方 / 局限
- — 文章承认 Fable 5 的省钱优势并非绝对,Reddit 用户反馈在某些特定任务中其 token 消耗可能更多,效果取决于上下文长度和任务复杂度。
- — Fable 5 带有安全分类器,在敏感任务(网络安全、生物化学、模型蒸馏)中会回退到 Opus 4.8 并按其价格计费,虽触发率 <5%,但可能影响安全相关基准测试的可复现性。
Claude Fable 5Opus 4.8AnthropicBoris ChernySWE-bench ProGameBenchArtificial AnalysisHumanity's Last ExamFrontierCodeSimpleBenchTrueFoundryEveryCognition
12 分钟 · 5 卡片 · 8 资料
读原文 →