BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

7.2

深览指数

科技量子位·2小时前·AI 生成

BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

本文的核心主张是，具身智能当前面临的数据混乱困境，与自动驾驶早年纯视觉方案各自为政的阶段极其相似，而BEV（鸟瞰视角）正是破局关键。跨维智能提出的Dexterity-BEV，核心不是做更强的策略模型，而是为机器人数据建立一套统一的空间对齐、动作对齐与时间对齐系统，将其转化为可规模训练的数据基建。文章通过仿真与真实机器人实验，验证了该方法在视角、基座、场景变化时的强泛化能力。适合关注具身智能、机器人数据基建、以及BEV技术跨领域应用的研发者阅读。

核心观点

▍具身智能从“堆数据”阶段迈入“建数据秩序”阶段，核心在于建立统一物理空间，而非单纯扩大数据量，否则数据扩张只会走向熵暴（entropy explosion）。
▍跨维智能提出的Dexterity-BEV，通过将多来源、多视角、多本体的机器人数据对齐到统一的BEV三维空间，为具身模型提供了可规模化训练的空间底座，是感知与动作第一次在物理坐标系中的对齐。

01Dexterity-BEV的核心是构建“统一BEV对齐坐标系”，将不同相机视角下的数据转化到同一个俯视参考空间，而非简单拼接图像或做笨重的三维重建。
02它通过“顶点图”和“顶点谱”机制，为每个视觉token注入三维空间位置，在保留2D VLM语义能力的同时补上空间坐标，避免了纯2D方法空间不足和纯3D方法成本高、难训练的两难。
03为解决动作不统一问题，Dexterity-BEV不直接学习关节角，而是学习末端执行器在统一BEV空间中的目标位姿，从而将动作从具体硬件绑定中解放出来，支持跨机器人平台迁移。
04数据管线中引入了跨轨迹时序对齐机制，对不同操作者、不同机器人执行同一任务的时间节奏进行规整，以减少“谁快谁慢”等无意义差异对模型训练的干扰。
05在LIBERO和RoboTwin 2.0仿真中，Dexterity-BEV与π0、X-VLA等基线对比，在相机视角、机器人基座和场景布局被大幅扰动的设置下，成功率表现稳定。
06真实机器人实验覆盖了四个双臂平台，执行折叠纸盒、折布、舀爆米花、递书等长程任务，涉及刚体、柔性物体、颗粒物和人类交互。

反方 / 局限

— 文章未具体比较Dexterity-BEV与现有数据增强或合成数据方法的成本与效果差异，也未讨论其在缺乏深度信息的纯RGB场景下，顶点谱机制的估计精度上限。
— 文中实验侧重于视觉与几何的泛化，未涉及任务指令（语言）本身的多样性或歧义性对决策的影响，也未讨论与物理解耦的抽象任务（如“准备早餐”）如何从纯空间对齐中受益。

BEV (Bird's-Eye View)Dexterity-BEV跨维智能具身智能VLA (Vision-Language-Action)π0X-VLALIBERORoboTwinUMI顶点图/顶点谱

10 分钟 · 4 卡片 · 11 资料

读原文 →

BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

前置背景

平行视角

未来推演

延伸追问