7.4
深览指数
科技微博·机器之心Pro··AI 生成
NVIDIA团队让编程Agent接管真实机器人实验,成功率达99%
NVIDIA GEAR 实验室发布 ENPIRE 框架,首次实现由编码 Agent 自主驱动真实机器人完成从环境重置、策略训练到自我迭代的全闭环实验,无需人类干预。在系扎带、插针整理等灵巧操作任务中达到 99% 成功率。文章揭示了自动化机器人研究的关键瓶颈并非 GPU 而是机器人时间,并提出了 MRU(机器人利用率)和 MTU(Token 利用率)两个新指标。适合关注具身智能、自动化科研范式、AI Agent 落地的研究人员与工程师阅读。原文 ↗
核心观点
- ▍ENPIRE 框架实现了由编码 Agent 自主完成从环境重置、文献搜索、代码编写、策略训练到自我迭代的真实机器人研究全闭环,将人类从实验操作中解放出来,使机器人研究从手工作坊模式转向自动化平台模式。
- 01ENPIRE 由四个模块构成闭环:环境模块(EN)负责自动重置和验证,策略改进模块(PI)启动策略优化,Rollout 模块(R)支持并行评估,进化模块(E)让 Agent 分析日志、查阅文献并改进代码。
- 02在 PushT、插针整理、扎带剪切等真实灵巧操作任务中,ENPIRE 驱动的前沿编码 Agent (如 Codex、Claude Code) 实现了 99% 的成功率。
- 03关键观察:对许多机器人任务而言,重置环境比完成任务本身更容易。因此 ENPIRE 先让 Agent 通过 Code-as-Policy 构建自动重置环境,再启动自动化研究循环。
- 04在插针任务中,一个 Agent 甚至自行编写了接触力安全控制器,其效果超过了单纯调节若干强化学习参数。
- 05当并行机器人数量从 1 台增加到 8 台时,插针任务达到接近完美表现的时间从 1.5 小时以上缩短到约 40 分钟,呈现一种「物理 scaling law」。
- 06Agent 通过 Git 进行协调:共享代码、放弃不理想的想法,并自主地挑选彼此的最佳运行结果。
- 07在 PushT 任务中,Codex、Claude Code 和 Kimi Code 均用一套基于规则的启发式方法,在不到 2 小时内解决任务,不依赖神经网络、训练或人类示范数据。
- 08研究团队提出两个新指标: MRU(平均机器人利用率,衡量机器人实际运行实验时间占比)和 MTU(平均 Token 利用率,衡量 Agent 将 token 转化为研究进展的效率)。实验中 MRU 始终低于 50%。
反方 / 局限
- — MRU 始终低于 50% 表明机器人有一半时间处于空闲等待 Agent 思考的状态,这意味着推理模型的速度和「harness」(Agent 与机器人交互的中间件)的效率成为当前系统的主要瓶颈。
- — 文章称自动化研究的「真正稀缺资源不是 GPU,而是机器人时间」,并指出真实世界交互预算是硬约束,这暗示了这种范式在大型、长周期、需精密调试的任务中的扩展性尚待验证。
NVIDIA GEAR 实验室ENPIREJim FanCodex AgentClaude CodeKimi CodePushTCode-as-Policy平均机器人利用率 (MRU)平均 Token 利用率 (MTU)Scaling LawLeRobotHF SO-101
6 分钟 · 4 卡片 · 10 资料
读原文 →