天工AI重新定义世界模型，公布Matrix-Game 3.5 最新技术突破

7.1

深览指数

科技量子位·06-15 12:16·AI 生成

天工AI重新定义世界模型，公布Matrix-Game 3.5 最新技术突破

昆仑万维首席科学家刘扬在2026智源大会上提出世界模型新框架：状态预测与动作生成必须联合训练，而非分而治之。首次披露Matrix-Game 3.5关键技术突破，包括用PRoPE机制取代传统控制信号注入，以及构建空间记忆块解决长时程一致性难题。文章核心信息量密集，以游戏为切入点逐步扩展至真实场景，但全文为厂商技术发布，缺乏独立第三方评估或对技术路线的审视。适合关注生成式AI/世界模型前沿的算法工程师和管理者阅读。原文 ↗原文 ↗

核心观点

▍世界模型的核心不应只是预测下一帧，而是对状态与动作进行联合理解与联合生成，根据不同应用场景侧重输出状态（模拟器）或动作（机器人控制）。
▍Matrix-Game 3.5 最大变化是从游戏场景向真实场景扩展，并引入PRoPE机制替代传统参数注入，以及基于空间块的三维记忆架构。

01Matrix-Game 2.0是业界首个实现分钟级实时长序列交互的开源世界模型，DiT作者谢赛宁团队基于此底座发布了全球首个多人视频世界模型Solaris。
02Matrix-Game 3.0实现5B参数蒸馏模型720P@40FPS实时生成，填补了记忆、长时程、实时性三大短板。
03团队构建的三条自动化数据生产管线已产出500万+高质量视频切片、1万+有效训练小时数、1200+覆盖游戏场景数。
04传统控制参数注入（鼠标通过Self-Attention，键盘通过Cross-Attention）会破坏原始视频分布；3.5改用PRoPE机制，通过相机投影矩阵让模型直接感知位姿。
05记忆机制从原样存储历史帧升级为将历史帧切分为三维空间块（spatial tokens），检索时按空间位置匹配并重组记忆图，提升一致性与灵活性。
06实践中发现两大训练难题：爬取视频时动作信号与视觉画面缺乏一一对应（同一视觉变化对应多种操作），以及模型理解动作指令但不理解其物理后果（如穿墙）。

反方 / 局限

— 文章未提及当前世界模型技术路线（如DiT、Self-Forcing蒸馏）本身的固有局限，也未与Google Genie、OpenAI Sora等竞品的底层架构进行对比或给出优劣分析。
— 全文为昆仑万维的官方技术发布陈述，缺乏独立专家评论、第三方性能基准测试结果或业界对其方案有效性的验证反馈。

刘扬昆仑万维SkyworkMatrix-Game世界模型智源大会PRoPE (Projective Position Encoding)DiT (Diffusion Transformer)谢赛宁Unreal Engine 5

10 分钟 · 6 卡片 · 15 资料

读原文 →

天工AI重新定义世界模型，公布Matrix-Game 3.5 最新技术突破

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问