陶哲轩参赛，在这项极其严格的数学测试中，人类表现优于AI

7.9

深览指数

科技虎嗅·返朴·11小时前·AI 生成

陶哲轩参赛，在这项极其严格的数学测试中，人类表现优于AI

First Proof项目通过10道研究级数学题（非竞赛题）独立测试四个公开AI系统，发现它们在真正的科研场景下表现远不如传闻中惊艳。AI的成功高度集中于与已有文献结构相似的题目，且普遍存在严重的幻觉和引用问题，包括捏造定理、照搬已发表论文而不署名。测试中唯一的亮点是系统A在随机偏微分方程题上给出了比人类解法更强的新颖证明路径，但这与其平均表现形成反差。作者认为，AI在逻辑执行层面已具备能力，但在需要直觉和原创性洞察的高阶研究环节，差距依然明显。适合关注AI能力边界与科学研究的读者。原文 ↗原文 ↗

核心观点

▍在真正的数学研究场景下，当前AI系统的表现远低于传闻和公众预期，仅在逻辑执行和结构复现层面有亮点，在需要原创洞察和可靠性的环节不可靠。
▍AI系统无法独立提出深刻猜想或构建理论框架，更适合作为强大但不可完全信赖的科研辅助工具。

01First Proof项目由斯坦福、伯克利、UT Austin、哈佛等学者发起，独立测试4个公开AI系统（含陶哲轩参与的Moonshot Harness和OpenAI的ChatGPT 5.5 Pro），获Anthropic和OpenAI非限制性捐款。
0210道题目来自一线研究者正在解决的未发表问题，且经过零数据留存预测试，确保AI无法在训练数据中检索答案。
03系统A（ProofCouncil，使用ChatGPT 5.5 Pro及多模型协作）表现最佳，6道题获得通过性评级（其中2道获最高评级的"无实质性问题"），但因技术故障未提交第6题的答案。
04第5题（随机偏微分方程）中，系统A给出了与人类解法完全不同的新颖证明路径，利用随机缝合引理和吉尔萨诺夫熵界，建立了一个比人类解法更强的中间结论。
05第4题（度量几何）全军覆没，其中ChatGPT 5.5 Pro捏造了麻省理工数学家拉里·古斯2007年论文中并不存在的定理来证明结论。
06系统C（ChatGPT 5.5 Pro单独运行）花117美元通过5道题，成本仅为系统B（UCLA方案）的不到三十分之一，但通过数相同。
07AI在论证中存在系统性问题：常规部分过于繁琐，困难关键步骤却常以"由标准论证可得"一笔带过，或引用不包含该结论的论文。

反方 / 局限

— 作者明确指出，AI在某些题目（如第3、5、9题）上给出了并不能通过文献结构转译的新颖证明，显示AI在特定条件下具备超越复用的原创潜力，与整体悲观结论存在张力。
— 系统A在第5题上的表现远超预期，如果将其视为AI能力的上限而非平均表现，那么对AI能力的评价可能更为乐观。
— 文章暗示，当前测试对AI能力评估的前提假设是题目必须完全新颖且不可检索；随着持续测试，AI可能逐步学习到这类问题的通用解法。

First Proof 理查德·施瓦茨陶哲轩拉里·古斯 ProofCouncil Moonshot Harness ChatGPT 5.5 Pro Gemini 3.1 Pro 随机缝合引理吉尔萨诺夫熵界《数学年刊》

17 分钟 · 5 卡片 · 15 资料

读原文 →

陶哲轩参赛，在这项极其严格的数学测试中，人类表现优于AI

前置背景

平行视角

争议局限

未来推演

延伸追问