7.1
深览指数
科技量子位··AI 生成

具身智能Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

英伟达提出ASPIRE框架,让机器人通过代码执行任务,失败后由大模型分析执行轨迹、修复程序,将经验沉淀为可复用的技能库。这改变了传统机器人训练依赖梯度下降与模型权重的范式,转向不断打磨和积累技能的持续学习模式。文章详细介绍了ASPIRE的三阶段流水线、技能库的形态,并在LIBERO、Robosuite等基准上验证了其有效性。适合对具身智能、机器人学习范式感兴趣的硬核读者,尤其适合关注Code as Policy路线与VLA路线之争的从业者。原文 ↗

核心观点
  • ASPIRE代表一种全新的机器人持续学习范式:训练过程从梯度下降变为技能打磨(Skill Refinement),训练产物从模型权重变为持续扩展的机器人技能库(Sensorimotor Skills),分布式训练则变为多Agent各自练习不同技能并汇总经验。
  1. 01ASPIRE通过大模型(GPT/Claude)分析机器人执行失败时的多模态轨迹(感知、导航、抓取、碰撞),判断问题环节并迭代程序,成功后将修复经验写入Skill。
  2. 02ASPIRE的三阶段流水线包括:Robot Execution Engine(细粒度失败日志)、Skill Library(沉淀可复用经验)、Evolutionary Search(多条候选程序并行迭代)。
  3. 03在Robosuite双臂物体交接任务中,ASPIRE将成功率从20%提升至92%。
  4. 04在LIBERO-90上积累技能库后,直接迁移到未见过的LIBERO-Pro Long任务,成功率随技能库增厚从接近0%提升至31%。
  5. 05技能库中包含具体条目,如'SAM3文本提示怎么写''桌边物体要多角度接近''抽屉把手怎么过滤假检测',本质是经过验证的代码修复模式(Code Repair Pattern)。
  6. 06ASPIRE解决的先有问题:Code as Policy范式下机器人失败后系统只知道'任务未完成',且调试经验无法被记录和复用。
反方 / 局限
  • ASPIRE的实验验证仅在仿真环境(LIBERO-Pro、Robosuite、BEHAVIOR-1K)中进行,未涉及真实机器人部署,其对真实世界噪声、硬件差异的鲁棒性尚未验证。
  • 文章未讨论ASPIRE与大算力端到端VLA路线(如RT-2、π0)在数据效率、泛化能力上的直接对比,也未提及'写代码式控制'相比'直接输出动作'在实时性上的潜在瓶颈。
10 分钟 · 5 卡片 · 12 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问