科技 量子位 · 2小时前 · AI 生成
具身智能Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了 英伟达提出ASPIRE框架,让机器人通过代码执行任务,失败后由大模型分析执行轨迹、修复程序,将经验沉淀为可复用的技能库。这改变了传统机器人训练依赖梯度下降与模型权重的范式,转向不断打磨和积累技能的持续学习模式。文章详细介绍了ASPIRE的三阶段流水线、技能库的形态,并在LIBERO、Robosuite等基准上验证了其有效性。适合对具身智能、机器人学习范式感兴趣的硬核读者,尤其适合关注Code as Policy路线与VLA路线之争的从业者。原文 ↗ 原文 ↗
核心观点
▍ ASPIRE代表一种全新的机器人持续学习范式:训练过程从梯度下降变为技能打磨(Skill Refinement),训练产物从模型权重变为持续扩展的机器人技能库(Sensorimotor Skills),分布式训练则变为多Agent各自练习不同技能并汇总经验。 01 ASPIRE通过大模型(GPT/Claude)分析机器人执行失败时的多模态轨迹(感知、导航、抓取、碰撞),判断问题环节并迭代程序,成功后将修复经验写入Skill。 02 ASPIRE的三阶段流水线包括:Robot Execution Engine(细粒度失败日志)、Skill Library(沉淀可复用经验)、Evolutionary Search(多条候选程序并行迭代)。 03 在Robosuite双臂物体交接任务中,ASPIRE将成功率从20%提升至92%。 04 在LIBERO-90上积累技能库后,直接迁移到未见过的LIBERO-Pro Long任务,成功率随技能库增厚从接近0%提升至31%。 05 技能库中包含具体条目,如'SAM3文本提示怎么写''桌边物体要多角度接近''抽屉把手怎么过滤假检测',本质是经过验证的代码修复模式(Code Repair Pattern)。 06 ASPIRE解决的先有问题:Code as Policy范式下机器人失败后系统只知道'任务未完成',且调试经验无法被记录和复用。 反方 / 局限
— ASPIRE的实验验证仅在仿真环境(LIBERO-Pro、Robosuite、BEHAVIOR-1K)中进行,未涉及真实机器人部署,其对真实世界噪声、硬件差异的鲁棒性尚未验证。 — 文章未讨论ASPIRE与大算力端到端VLA路线(如RT-2、π0)在数据效率、泛化能力上的直接对比,也未提及'写代码式控制'相比'直接输出动作'在实时性上的潜在瓶颈。 10 分钟 · 5 卡片 · 12 资料
读原文 →
概念锚点 ASPIRE 三阶段流水线拆解
ASPIRE 不只是一个概念,它由三层工程实现:最底层是 Robot Execution Engine——把一次失败拆成感知、规划、抓取、碰撞、运动恢复的细粒度日志,让 AGENT 能定位问题而非只知「任务未完成」。中间层是 Skill Library,每条 skill 不是代码片段,而是一段经过验证的修复模式(Code Repair Pattern),例如「桌边物体要从 45/90/180 度重新接近」。最顶层是 Evolutionary Search——系统同时跑多条候选控制程序,让幸存程序和失败轨迹迭代竞争,类似软件工程的 CI/CD。在 Robosuite 双臂交接任务中,这套流水线把成功率从 20% 拉到 92%。
▸ 2 条关联资料
▼
前置背景 Code as Policy 的来龙去脉
ASPIRE 的核心思想建立在「代码即策略」路线上——不同于 VLA 端到端输出关节角,CaP 让大模型现场写 Python 程序,调用感知、规划、控制 API 完成任务。Google 在 2022 年首次提出 CaP,用少样本学习让机器人根据自然语言指令生成控制代码。英伟达后续的 CaP-X 框架把这条路推向生产化:代码可跨机械臂、四足狗、人形机器人复用,还引入强化学习进化算法,7B 模型 50 次迭代后成功率从 20% 飙到 72%。ASPIRE 给 CaP 装上「记性」——失败后 AGENT 分析轨迹、修代码、把修复模式存进技能库,解决过去 CaP 系统「做完就忘」的致命短板。
▸ 2 条关联资料
▼
平行视角 技能库路线 vs 端到端 VLA
ASPIRE 代表的「积累可读代码技能」路线,和主流的端到端 VLA 形成根本分歧。VLA 阵营坚持把所有知识塞进神经网络权重,优点是反应快、同构性好;缺点是权重是黑箱,失败后追因困难,且每换一次硬件就得重新微调。英伟达的 Cosmos Policy 在 LIBERO 上做到 98.5% 成功率,但这类端到端模型被批评「连抓马克杯还是苹果都分不清」。CaP 路线可解释、可调试、可跨设备移植,但依赖 LLM 推理延迟和代码执行层的稳定性。两条路线不是互斥——ASPIRE 的 skills 本质是喂给 CaP AGENT 的上下文,而 VLA 也正在吸收世界模型组件。业界真实走向是混血而非二选一。
▸ 3 条关联资料
▼
未来推演 技能库「滚雪球」效应的前提
ASPIRE 让人兴奋之处在于:机器人做完第 100 个任务时不再像第 1 个时那样一无所知。但这个「滚雪球」成立需要两个关键变量:一是 LLM 分析的稳定性——当前依赖 GPT/Claude 做执行轨迹诊断,LLM 的幻觉或边界案例误判会把错误经验写进技能库,形成劣质积累;二是技能库的检索效率——随着库从几十条膨胀到上万条,检索匹配精度会显著衰减。英伟达在实验中也只报告了 LIBERO 上积累后迁移到新任务达 31% 的成功率,远未到「越用越强」的稳定状态。拐点要看两个信号:技能去重与冲突消解的自动化方案,以及「实验验证再入库」的闭环机制能否匹配 AGENT 的进化速度。
▸ 3 条关联资料
▼
延伸追问 技能库的「坏经验」怎么兜底?
ASPIRE 依赖 LLM 分析执行轨迹并自动沉淀技能,但 LLM 的误判若写进库里,后续所有机器人都会继承同一个坑。安全圈已经开始关注:360 在 2026 年 5 月发布报告指出,Skill 正成为智能体风险新入口——恶意诱导、逻辑误判、上下文污染都能导致「合法动作的非法后果」。具身智能安全已从数据泄露升级为物理伤害,一篇错误的技能如果让机器人朝人撞过去怎么办?当前行业对技能库的版本回滚、冲突检测、沙盒验证机制讨论很少。真正值得追问的不是「技能库能否积累」,而是「当技能库积累到百万条时,谁有权判定一条 skill 该被删除」。
▸ 2 条关联资料
▼