7.8
深览指数
科技微博·量子位··AI 生成

世界模型的新用途:不做选手,去当裁判

地瓜机器人发布名为「Uranus」的世界模型,它不当机器人的“大脑”,而是定位为评测基准(Benchmark)和仿真训练器。文章详细解释了Uranus通过帧级闭环技术生成视频,以缩小仿真(sim)与现实(real)之间的鸿沟,并提供了跨具身零样本泛化能力。作者指出,Uranus的开发重心(三分之二资源)在搭建基础设施和处理脏数据上,而非核心算法,这印证了其对“数据决定上限,模型决定下限”的判断,并点明了具身智能行业当前仍处于数据工程驱动阶段。原文 ↗

核心观点
  • 地瓜机器人认为,与其卷具身大脑(VLA/世界模型),不如先做好评测和训练的基础设施,因为提升机器人能力的关键在于构建能反复试错和稳定评估的平台,而非直接优化大脑算法。
  • 当前具身智能行业,数据质量决定模型能力上限,而算法决定下限;大量所谓的“脏活累活”(数据清洗、标定、基础设施搭建)带来的效果提升,比算法创新更显著。
  1. 01Uranus采用“帧级闭环”机制,不同于一次性生成整段视频,其每生成一帧都基于当前动作和历史窗口,支持实时交互和动作改写,解决了传统仿真器需要手工构建环境且不具交互性的问题。
  2. 02Uranus在训练仅用2秒短片段的情况下,推理时能稳定运行60秒并保持画质,突破了闭环长序列的误差累积瓶颈。
  3. 03团队称,Uranus生成的视频肉眼几乎无法区分是实拍还是生成,这大幅降低了sim-to-real的gap,使评测分数能更真实地反映模型实际能力。
  4. 04Uranus支持跨具身零样本泛化,目前可服务G1人形机器人和Franka协作臂,用户训练模型时无需依赖特定硬件。
  5. 05项目三分之二的资源投入在搭建infra和处理数据上,包括分层存储设计、跨云算力协调、数据丢帧修复、动作-视频对齐、相机标定修正等“脏活”。
  6. 06团队指出,仅通过做好数据标定和清洗,就能带来几十个百分点的成功率提升,而算法优化的效果难以企及。
反方 / 局限
  • 目前Uranus仅支持manipulation(操作)训练,不支持locomotion(运动控制)训练,因为其模态中缺乏触觉、摩擦力、电机信号等关键信息,而这些数据在行业内尚不成熟。
  • 团队承认当前几百小时的数据量远未饱和,但认为单纯堆砌百万小时同质化数据作用有限,实际有效数据可能不足1%,因此数据质量比数量更重要。
8 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问