6.3
深览指数
科技智东西··AI 生成
一套模型通吃所有机器人,地瓜发了个帧级闭环世界模型
地瓜机器人算法团队发布了基于视频扩散的世界模型Uranus,其核心创新在于首创“帧级闭环”架构,能像仿真器一样逐帧接收指令、逐帧生成视觉反馈,实现分钟级可交互推演。与传统开环视频生成和物理仿真器不同,Uranus通过统一骨架渲染管线实现跨机器人零样本泛化,并借助因果注意力掩码、KV-Cache缓存等技术解决长时序误差累积与算力瓶颈。适合关注具身智能、机器人仿真与数据生成的技术从业者阅读,了解最新技术路径与工程取舍。原文 ↗
核心观点
- ▍地瓜机器人发布的世界模型Uranus通过帧级闭环架构,让单一模型可跨机器人生成分钟级、可控的交互式视频,旨在替代或补足传统物理仿真器在机器人训练中的瓶颈。
- 01Uranus基于预训练Wan 2.1视频DiT骨干模型,提供1.3B和14B两个版本,分别面向快速实验和高保真闭环生成。
- 02模型通过统一骨架渲染管线,将URDF/MJCF文件转化为骨架图像,实现从G1人形机器人到Franka协作机械臂的跨具身零样本泛化。
- 03为解决长时序闭环的误差累积,Uranus采用了因果注意力掩码、帧相对位置编码(Frame-Relative RoPE)和参考帧注意力汇三项技术。
- 04模型可以同步渲染三路以上相机画面,通过交替时空注意力架构维持多视角空间几何一致性。
- 05Uranus引入KV-Cache缓存与滑动窗口机制,确保单步推理延迟和显存占用恒定,支持多环境并行实时推演。
反方 / 局限
- — 文章未提及Uranus在物理交互准确性(如接触力、材质形变)上的表现,以及它与Isaac Sim等物理仿真器的定量对比或局限。
9 分钟 · 4 卡片 · 10 资料
读原文 →