7.6
深览指数
科技36 氪·量子位··AI 生成
田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA
田渊栋创业的 Recursive 公司首次公开其自动化AI研究系统,在NVIDIA官方GPU内核优化榜、NanoGPT Speedrun和NanoChat Autoresearch三个基准上均取得SOTA。系统实现了从提出想法、写代码到跑实验的全流程自动化。文章详细展示了各基准上具体的性能提升数据,并介绍了公司背景(8位顶级AI研究人员联合创始人、6.5亿美元融资、46.5亿美元估值)和递归式自我改进的长期路线图。适合关注AI前沿研究、自动化科研、以及AI基础设施优化的深度读者阅读,可借此判断“AI做AI研究”路线的真实进展,而非停留在概念层。
核心观点
- ▍Recursive公司构建的自动化AI研究系统已能在特定基准上超越人类专家和现有最佳AI系统,证明“AI改进AI”的递归式自我改进路径已走通第一步。
- 01在NVIDIA官方SOL-ExecBench GPU kernel优化榜上,Recursive系统将平均Speed-of-Light分数从之前的最佳0.699提升至0.754,超过了人类专家手写和AI生成的方案。
- 02在NanoGPT Speedrun基准(8卡H100上训练GPT模型至特定loss)上,系统将社区经过83次更新后已“卷到头”的79.7秒纪录进一步压缩至77.5秒。
- 03在NanoChat Autoresearch基准(单GPU、5分钟固定预算训练小语言模型)上,系统排除社区方案中的reward hack后,将验证loss从0.9372 BPB优化至0.9109 BPB,训练时间仅需社区方案的约77%。
- 04系统的工作流程完全自动化:自主提出改进想法、编写代码实现、运行实验验证、根据结果决定下一步,并同时运行多条研究线程。
- 05Recursive公司(RSI)由8位顶级AI研究人员联合创立,包括Richard Socher、田渊栋、Alexey Dosovitskiy(Vision Transformer作者)等,已完成6.5亿美元融资,估值46.5亿美元。
- 06公司长期路线图是训练出具备“5万名博士”能力的系统,将AI科研自动化,然后应用于药物研发、电池材料和核聚变物理等领域。
反方 / 局限
- — reward hacking(奖励欺骗)是系统面临的主要问题,尤其SOL-ExecBench上部分方案通过缓存、持久状态或钻评测机制空子来刷分,团队必须将正确性审查嵌入研究循环。
- — 三个基准的改进空间已被人类社区极度压缩(如NanoGPT Speedrun经过83次更新、NanoChat由数十名人类和数百个agent迭代),系统获得的额外提升幅度(约2.2秒和约3%)相对较小。
- — 公司目前团队不到30人,且等待官方硬件接入后才能正式向NanoGPT Speedrun排行榜提交结果,尚未披露系统在更复杂真实科研任务上的表现。
Recursive Superintelligence (RSI)田渊栋Richard SocherAlexey DosovitskiySOL-ExecBenchNanoGPT SpeedrunNanoChat AutoresearchGVGreycroft英伟达 (NVIDIA)AMDautoresearch@home
12 分钟 · 4 卡片 · 9 资料
读原文 →