世界模型的新用途：不做选手，去当裁判

7.8

深览指数

科技微博·量子位·6小时前·AI 生成

世界模型的新用途：不做选手，去当裁判

地瓜机器人发布名为「Uranus」的世界模型，它不当机器人的“大脑”，而是定位为评测基准（Benchmark）和仿真训练器。文章详细解释了Uranus通过帧级闭环技术生成视频，以缩小仿真（sim）与现实（real）之间的鸿沟，并提供了跨具身零样本泛化能力。作者指出，Uranus的开发重心（三分之二资源）在搭建基础设施和处理脏数据上，而非核心算法，这印证了其对“数据决定上限，模型决定下限”的判断，并点明了具身智能行业当前仍处于数据工程驱动阶段。原文 ↗原文 ↗

核心观点

▍地瓜机器人认为，与其卷具身大脑（VLA/世界模型），不如先做好评测和训练的基础设施，因为提升机器人能力的关键在于构建能反复试错和稳定评估的平台，而非直接优化大脑算法。
▍当前具身智能行业，数据质量决定模型能力上限，而算法决定下限；大量所谓的“脏活累活”（数据清洗、标定、基础设施搭建）带来的效果提升，比算法创新更显著。

01Uranus采用“帧级闭环”机制，不同于一次性生成整段视频，其每生成一帧都基于当前动作和历史窗口，支持实时交互和动作改写，解决了传统仿真器需要手工构建环境且不具交互性的问题。
02Uranus在训练仅用2秒短片段的情况下，推理时能稳定运行60秒并保持画质，突破了闭环长序列的误差累积瓶颈。
03团队称，Uranus生成的视频肉眼几乎无法区分是实拍还是生成，这大幅降低了sim-to-real的gap，使评测分数能更真实地反映模型实际能力。
04Uranus支持跨具身零样本泛化，目前可服务G1人形机器人和Franka协作臂，用户训练模型时无需依赖特定硬件。
05项目三分之二的资源投入在搭建infra和处理数据上，包括分层存储设计、跨云算力协调、数据丢帧修复、动作-视频对齐、相机标定修正等“脏活”。
06团队指出，仅通过做好数据标定和清洗，就能带来几十个百分点的成功率提升，而算法优化的效果难以企及。

反方 / 局限

— 目前Uranus仅支持manipulation（操作）训练，不支持locomotion（运动控制）训练，因为其模态中缺乏触觉、摩擦力、电机信号等关键信息，而这些数据在行业内尚不成熟。
— 团队承认当前几百小时的数据量远未饱和，但认为单纯堆砌百万小时同质化数据作用有限，实际有效数据可能不足1%，因此数据质量比数量更重要。

Uranus 地瓜机器人隋伟秦文康 G1人形机器人 Franka协作臂 Seedance VLA sim-to-real gap 帧级闭环

8 分钟 · 4 卡片 · 11 资料

读原文 →

世界模型的新用途：不做选手，去当裁判

前置背景

平行视角

未来推演

延伸追问