一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

6.3

深览指数

科技智东西·3小时前·AI 生成

一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

地瓜机器人算法团队发布了基于视频扩散的世界模型Uranus，其核心创新在于首创“帧级闭环”架构，能像仿真器一样逐帧接收指令、逐帧生成视觉反馈，实现分钟级可交互推演。与传统开环视频生成和物理仿真器不同，Uranus通过统一骨架渲染管线实现跨机器人零样本泛化，并借助因果注意力掩码、KV-Cache缓存等技术解决长时序误差累积与算力瓶颈。适合关注具身智能、机器人仿真与数据生成的技术从业者阅读，了解最新技术路径与工程取舍。原文 ↗原文 ↗

核心观点

▍地瓜机器人发布的世界模型Uranus通过帧级闭环架构，让单一模型可跨机器人生成分钟级、可控的交互式视频，旨在替代或补足传统物理仿真器在机器人训练中的瓶颈。

01Uranus基于预训练Wan 2.1视频DiT骨干模型，提供1.3B和14B两个版本，分别面向快速实验和高保真闭环生成。
02模型通过统一骨架渲染管线，将URDF/MJCF文件转化为骨架图像，实现从G1人形机器人到Franka协作机械臂的跨具身零样本泛化。
03为解决长时序闭环的误差累积，Uranus采用了因果注意力掩码、帧相对位置编码（Frame-Relative RoPE）和参考帧注意力汇三项技术。
04模型可以同步渲染三路以上相机画面，通过交替时空注意力架构维持多视角空间几何一致性。
05Uranus引入KV-Cache缓存与滑动窗口机制，确保单步推理延迟和显存占用恒定，支持多环境并行实时推演。

反方 / 局限

— 文章未提及Uranus在物理交互准确性（如接触力、材质形变）上的表现，以及它与Isaac Sim等物理仿真器的定量对比或局限。

地瓜机器人 Uranus Wan 2.1 G1机器人 Franka机械臂 DiT KV-Cache Isaac Sim

9 分钟 · 4 卡片 · 10 资料

读原文 →

一套模型通吃所有机器人，地瓜发了个帧级闭环世界模型

前置背景

技术原理

应用场景

延伸追问