7.2
深览指数
科技量子位··AI 生成

BEV 杀入具身智能:跨维把机器人数据带上 Scaling 快车道

本文的核心主张是,具身智能当前面临的数据混乱困境,与自动驾驶早年纯视觉方案各自为政的阶段极其相似,而BEV(鸟瞰视角)正是破局关键。跨维智能提出的Dexterity-BEV,核心不是做更强的策略模型,而是为机器人数据建立一套统一的空间对齐、动作对齐与时间对齐系统,将其转化为可规模训练的数据基建。文章通过仿真与真实机器人实验,验证了该方法在视角、基座、场景变化时的强泛化能力。适合关注具身智能、机器人数据基建、以及BEV技术跨领域应用的研发者阅读。

核心观点
  • 具身智能从“堆数据”阶段迈入“建数据秩序”阶段,核心在于建立统一物理空间,而非单纯扩大数据量,否则数据扩张只会走向熵暴(entropy explosion)。
  • 跨维智能提出的Dexterity-BEV,通过将多来源、多视角、多本体的机器人数据对齐到统一的BEV三维空间,为具身模型提供了可规模化训练的空间底座,是感知与动作第一次在物理坐标系中的对齐。
  1. 01Dexterity-BEV的核心是构建“统一BEV对齐坐标系”,将不同相机视角下的数据转化到同一个俯视参考空间,而非简单拼接图像或做笨重的三维重建。
  2. 02它通过“顶点图”和“顶点谱”机制,为每个视觉token注入三维空间位置,在保留2D VLM语义能力的同时补上空间坐标,避免了纯2D方法空间不足和纯3D方法成本高、难训练的两难。
  3. 03为解决动作不统一问题,Dexterity-BEV不直接学习关节角,而是学习末端执行器在统一BEV空间中的目标位姿,从而将动作从具体硬件绑定中解放出来,支持跨机器人平台迁移。
  4. 04数据管线中引入了跨轨迹时序对齐机制,对不同操作者、不同机器人执行同一任务的时间节奏进行规整,以减少“谁快谁慢”等无意义差异对模型训练的干扰。
  5. 05在LIBERO和RoboTwin 2.0仿真中,Dexterity-BEV与π0、X-VLA等基线对比,在相机视角、机器人基座和场景布局被大幅扰动的设置下,成功率表现稳定。
  6. 06真实机器人实验覆盖了四个双臂平台,执行折叠纸盒、折布、舀爆米花、递书等长程任务,涉及刚体、柔性物体、颗粒物和人类交互。
反方 / 局限
  • 文章未具体比较Dexterity-BEV与现有数据增强或合成数据方法的成本与效果差异,也未讨论其在缺乏深度信息的纯RGB场景下,顶点谱机制的估计精度上限。
  • 文中实验侧重于视觉与几何的泛化,未涉及任务指令(语言)本身的多样性或歧义性对决策的影响,也未讨论与物理解耦的抽象任务(如“准备早餐”)如何从纯空间对齐中受益。
BEV (Bird's-Eye View)Dexterity-BEV跨维智能具身智能VLA (Vision-Language-Action)π0X-VLALIBERORoboTwinUMI顶点图/顶点谱
10 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问