科技量子位··AI 生成
天工AI重新定义世界模型,公布Matrix-Game 3.5 最新技术突破
昆仑万维首席科学家刘扬在2026智源大会上提出世界模型新框架:状态预测与动作生成必须联合训练,而非分而治之。首次披露Matrix-Game 3.5关键技术突破,包括用PRoPE机制取代传统控制信号注入,以及构建空间记忆块解决长时程一致性难题。文章核心信息量密集,以游戏为切入点逐步扩展至真实场景,但全文为厂商技术发布,缺乏独立第三方评估或对技术路线的审视。适合关注生成式AI/世界模型前沿的算法工程师和管理者阅读。原文 ↗原文 ↗
核心观点
- ▍世界模型的核心不应只是预测下一帧,而是对状态与动作进行联合理解与联合生成,根据不同应用场景侧重输出状态(模拟器)或动作(机器人控制)。
- ▍Matrix-Game 3.5 最大变化是从游戏场景向真实场景扩展,并引入PRoPE机制替代传统参数注入,以及基于空间块的三维记忆架构。
- 01Matrix-Game 2.0是业界首个实现分钟级实时长序列交互的开源世界模型,DiT作者谢赛宁团队基于此底座发布了全球首个多人视频世界模型Solaris。
- 02Matrix-Game 3.0实现5B参数蒸馏模型720P@40FPS实时生成,填补了记忆、长时程、实时性三大短板。
- 03团队构建的三条自动化数据生产管线已产出500万+高质量视频切片、1万+有效训练小时数、1200+覆盖游戏场景数。
- 04传统控制参数注入(鼠标通过Self-Attention,键盘通过Cross-Attention)会破坏原始视频分布;3.5改用PRoPE机制,通过相机投影矩阵让模型直接感知位姿。
- 05记忆机制从原样存储历史帧升级为将历史帧切分为三维空间块(spatial tokens),检索时按空间位置匹配并重组记忆图,提升一致性与灵活性。
- 06实践中发现两大训练难题:爬取视频时动作信号与视觉画面缺乏一一对应(同一视觉变化对应多种操作),以及模型理解动作指令但不理解其物理后果(如穿墙)。
反方 / 局限
- — 文章未提及当前世界模型技术路线(如DiT、Self-Forcing蒸馏)本身的固有局限,也未与Google Genie、OpenAI Sora等竞品的底层架构进行对比或给出优劣分析。
- — 全文为昆仑万维的官方技术发布陈述,缺乏独立专家评论、第三方性能基准测试结果或业界对其方案有效性的验证反馈。
刘扬昆仑万维SkyworkMatrix-Game世界模型智源大会PRoPE (Projective Position Encoding)DiT (Diffusion Transformer)谢赛宁Unreal Engine 5
10 分钟 · 6 卡片 · 15 资料
读原文 →概念锚点
前置背景
技术原理
平行视角
未来推演
延伸追问