NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

7.4

深览指数

科技微博·机器之心Pro·昨天 20:36·AI 生成

NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

NVIDIA GEAR 实验室发布 ENPIRE 框架，首次实现由编码 Agent 自主驱动真实机器人完成从环境重置、策略训练到自我迭代的全闭环实验，无需人类干预。在系扎带、插针整理等灵巧操作任务中达到 99% 成功率。文章揭示了自动化机器人研究的关键瓶颈并非 GPU 而是机器人时间，并提出了 MRU（机器人利用率）和 MTU（Token 利用率）两个新指标。适合关注具身智能、自动化科研范式、AI Agent 落地的研究人员与工程师阅读。原文 ↗原文 ↗

核心观点

▍ENPIRE 框架实现了由编码 Agent 自主完成从环境重置、文献搜索、代码编写、策略训练到自我迭代的真实机器人研究全闭环，将人类从实验操作中解放出来，使机器人研究从手工作坊模式转向自动化平台模式。

01ENPIRE 由四个模块构成闭环：环境模块(EN)负责自动重置和验证，策略改进模块(PI)启动策略优化，Rollout 模块(R)支持并行评估，进化模块(E)让 Agent 分析日志、查阅文献并改进代码。
02在 PushT、插针整理、扎带剪切等真实灵巧操作任务中，ENPIRE 驱动的前沿编码 Agent (如 Codex、Claude Code) 实现了 99% 的成功率。
03关键观察：对许多机器人任务而言，重置环境比完成任务本身更容易。因此 ENPIRE 先让 Agent 通过 Code-as-Policy 构建自动重置环境，再启动自动化研究循环。
04在插针任务中，一个 Agent 甚至自行编写了接触力安全控制器，其效果超过了单纯调节若干强化学习参数。
05当并行机器人数量从 1 台增加到 8 台时，插针任务达到接近完美表现的时间从 1.5 小时以上缩短到约 40 分钟，呈现一种「物理 scaling law」。
06Agent 通过 Git 进行协调：共享代码、放弃不理想的想法，并自主地挑选彼此的最佳运行结果。
07在 PushT 任务中，Codex、Claude Code 和 Kimi Code 均用一套基于规则的启发式方法，在不到 2 小时内解决任务，不依赖神经网络、训练或人类示范数据。
08研究团队提出两个新指标: MRU（平均机器人利用率，衡量机器人实际运行实验时间占比）和 MTU（平均 Token 利用率，衡量 Agent 将 token 转化为研究进展的效率）。实验中 MRU 始终低于 50%。

反方 / 局限

— MRU 始终低于 50% 表明机器人有一半时间处于空闲等待 Agent 思考的状态，这意味着推理模型的速度和「harness」（Agent 与机器人交互的中间件）的效率成为当前系统的主要瓶颈。
— 文章称自动化研究的「真正稀缺资源不是 GPU，而是机器人时间」，并指出真实世界交互预算是硬约束，这暗示了这种范式在大型、长周期、需精密调试的任务中的扩展性尚待验证。

NVIDIA GEAR 实验室ENPIREJim FanCodex AgentClaude CodeKimi CodePushTCode-as-Policy平均机器人利用率 (MRU)平均 Token 利用率 (MTU)Scaling LawLeRobotHF SO-101

6 分钟 · 4 卡片 · 10 资料

读原文 →

NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

前置背景

平行视角

未来推演

延伸追问