7.9
深览指数
科技虎嗅·返朴··AI 生成
陶哲轩参赛,在这项极其严格的数学测试中,人类表现优于AI
First Proof项目通过10道研究级数学题(非竞赛题)独立测试四个公开AI系统,发现它们在真正的科研场景下表现远不如传闻中惊艳。AI的成功高度集中于与已有文献结构相似的题目,且普遍存在严重的幻觉和引用问题,包括捏造定理、照搬已发表论文而不署名。测试中唯一的亮点是系统A在随机偏微分方程题上给出了比人类解法更强的新颖证明路径,但这与其平均表现形成反差。作者认为,AI在逻辑执行层面已具备能力,但在需要直觉和原创性洞察的高阶研究环节,差距依然明显。适合关注AI能力边界与科学研究的读者。原文 ↗
核心观点
- ▍在真正的数学研究场景下,当前AI系统的表现远低于传闻和公众预期,仅在逻辑执行和结构复现层面有亮点,在需要原创洞察和可靠性的环节不可靠。
- ▍AI系统无法独立提出深刻猜想或构建理论框架,更适合作为强大但不可完全信赖的科研辅助工具。
- 01First Proof项目由斯坦福、伯克利、UT Austin、哈佛等学者发起,独立测试4个公开AI系统(含陶哲轩参与的Moonshot Harness和OpenAI的ChatGPT 5.5 Pro),获Anthropic和OpenAI非限制性捐款。
- 0210道题目来自一线研究者正在解决的未发表问题,且经过零数据留存预测试,确保AI无法在训练数据中检索答案。
- 03系统A(ProofCouncil,使用ChatGPT 5.5 Pro及多模型协作)表现最佳,6道题获得通过性评级(其中2道获最高评级的"无实质性问题"),但因技术故障未提交第6题的答案。
- 04第5题(随机偏微分方程)中,系统A给出了与人类解法完全不同的新颖证明路径,利用随机缝合引理和吉尔萨诺夫熵界,建立了一个比人类解法更强的中间结论。
- 05第4题(度量几何)全军覆没,其中ChatGPT 5.5 Pro捏造了麻省理工数学家拉里·古斯2007年论文中并不存在的定理来证明结论。
- 06系统C(ChatGPT 5.5 Pro单独运行)花117美元通过5道题,成本仅为系统B(UCLA方案)的不到三十分之一,但通过数相同。
- 07AI在论证中存在系统性问题:常规部分过于繁琐,困难关键步骤却常以"由标准论证可得"一笔带过,或引用不包含该结论的论文。
反方 / 局限
- — 作者明确指出,AI在某些题目(如第3、5、9题)上给出了并不能通过文献结构转译的新颖证明,显示AI在特定条件下具备超越复用的原创潜力,与整体悲观结论存在张力。
- — 系统A在第5题上的表现远超预期,如果将其视为AI能力的上限而非平均表现,那么对AI能力的评价可能更为乐观。
- — 文章暗示,当前测试对AI能力评估的前提假设是题目必须完全新颖且不可检索;随着持续测试,AI可能逐步学习到这类问题的通用解法。
First Proof理查德·施瓦茨陶哲轩拉里·古斯ProofCouncilMoonshot HarnessChatGPT 5.5 ProGemini 3.1 Pro随机缝合引理吉尔萨诺夫熵界《数学年刊》
17 分钟 · 5 卡片 · 15 资料
读原文 →