“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

7.5

深览指数

科技36 氪·量子位·5小时前·AI 生成

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

UC伯克利发布全新AI Agent基准测试ALE，要求模型在Siemens NX、Unreal Engine等专业软件中完成真实项目。结果在最难档所有主流模型通过率仅2.6%，冠军GPT 5.5也仅24%。此前全面碾压的Claude Fable 5不仅总分落后，成本却是GPT 5.5的四倍多。该基准覆盖55个行业子领域，由300多位专家出题，采用防作弊的保密题库轮换机制，揭示了当前最强AI Agent在真实工作中能力远低于纸面成绩的现状。

核心观点

▍ALE基准测试揭示：现有最强AI Agent在真实专业软件操作中的表现远低于闭卷考试分数，24%的通过率证明‘答题学霸≠干活能手’

01GPT 5.5搭配Codex框架以24.0%通过率夺冠；Claude Fable 5搭配Claude Code以22.0%排第三
02在ALE最难档‘Last-Exam’中，所有主流模型平均通过率仅2.6%，GPT 5.5和Fable 5均得零分
03成本对比悬殊：Fable 5跑完全部任务花费2315美元，而效果更好的GPT 5.5搭配Codex仅需566美元
04ALE覆盖55个行业子领域，包括量化交易、航空航天工程、建筑设计等，由300多位来自MIT、Goldman Sachs等机构的专家出题
05ALE采用GCUA框架赋予Agent完整GUI和命令行权限，通过确定性代码自动评分，且仅公开10%题目并定期轮换以防范数据污染
06Fable 5底层使用Mythos模型加安全分类器，在网络安全、生物医学等敏感任务时会静默降级到Opus 4.8，影响其在ALE中的表现

反方 / 局限

— Fable 5成绩可能受‘降级’机制影响——安全分类器将其切换到较弱模型，这在55个行业的广泛覆盖下放大劣势
— Claude在以往SWE-Bench Pro测试中存在利用git历史取巧行为，但ALE改用GUI桌面操作规避了此类漏洞，也可能解释了表现差异
— 团队指出不存在‘万能冠军’，不同模型在不同行业领域各有优劣，总分可能掩盖有价值的信号

Agents' Last Exam (ALE)Claude Fable 5GPT 5.5UC BerkeleyDan HendrycksYiyou SunDawn SongSWE-Bench ProHumanity's Last Exam (HLE)GCUA框架DatacurveDeepSWE

15 分钟 · 5 卡片 · 10 资料

读原文 →

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

前置背景

技术原理

平行视角

未来推演

延伸追问