7.4
深览指数
科技量子位··AI 生成

入选ECCV 2026!清华开源空间模型打败Gemini:真正的空间智能是在世界变化中持续学习

清华大学团队提出的Spatial-TTT模型,被ECCV 2026接收,核心创新是让多模态模型在推理过程中通过TTT(Test-Time Training)机制持续更新内部参数,从而形成并维护一份“空间记忆”,而非被动依赖无限增长的上下文窗口。实验中仅2B参数的模型在多个空间智能基准上超越GPT-5和Gemini-3-pro,且能处理长达120分钟的流式视频。文章详细拆解了混合架构、空间预测机制和密集场景描述监督三项设计及其协同效应。适合关注多模态大模型前沿、具身智能、长视频理解的技术研究者与从业者阅读。原文 ↗

核心观点
  • Spatial-TTT的核心主张:让模型在观看视频时‘边看、边更新、边储存一份空间记忆’,将模型参数本身作为动态记忆载体,而非依赖上下文窗口无限制膨胀。
  • 真正实现流式空间智能的关键是模型需要能持续吸收新观察、修正内部状态,并以紧凑形式保存跨时间的3D空间证据,Spatial-TTT通过TTT在线更新机制实现了这一目标。
  1. 01仅2B参数的Spatial-TTT在VSI-Bench上取得64.4平均分,在Absolute Distance、Route Plan等任务上突出;在MindCube-Tiny上准确率达76.2%,比Gemini-3-pro高出12个百分点。
  2. 02在VSI-SUPER系列长视频任务中(10/30/60/120分钟),Spatial-TTT的计数任务得分分别为31.8、45.6、36.2、38.4,而其他模型在更长视频上性能崩塌或OOM。
  3. 03混合架构中75%的层采用TTT,25%保留标准全注意力层(anchor layers),分别负责长程记忆和语义理解。同时引入large-chunk更新与并行sliding-window attention提升效率。
  4. 04空间预测机制通过轻量级3D时空卷积增强Q/K/V的局部几何与时间连续性,使fast weights学习‘时空上下文到时空上下文的预测关系'而非孤立token映射。
  5. 05密集场景描述监督(scene walkthrough)覆盖全局语境、物体类别与数量、空间关系,采用两阶段spatial-aware progressive training: 先学习‘记住整个空间’,再用数百万条spatial VQA数据强化具体推理能力。
  6. 06消融实验显示:去掉空间预测机制VSI-Bench降至62.1,去掉密集场景描述降至61.3,去掉混合架构(纯TTT)降至53.9,说明三项设计协同增效。
  7. 07效率方面:1024帧输入下Spatial-TTT-2B峰值显存11.9GB,理论计算量799.4 TFLOPs,较行业大厂模型节省超过40%显存与计算。
  8. 08论文链接: arxiv.org/pdf/2603.12255; 项目主页: liuff19.github.io/Spatial-TTT/; GitHub: github.com/THU-SI/Spatial-TTT/
反方 / 局限
  • 文章承认TTT概念本身不新,此前已被用于语言建模、新视角合成和视频生成,Spatial-TTT的主要贡献在于将其适配到流式视觉空间理解这一特定且具有挑战性的场景。
  • 实验对比的基线包括GPT-5、Gemini-3-pro等闭源模型,但这些模型并非专门针对空间智能任务设计,直接对比可能无法完全体现开源/专有模型在其他方面的优势。
  • 文章未讨论Spatial-TTT在真实物理设备(如机器人、自动驾驶汽车)上的部署可行性、实时性要求与功耗表现,这些是商业落地的关键考量。
Spatial-TTT刘芳甫清华大学ECCV 2026GPT-5Gemini-3-proTTT (Test-Time Training)VSI-BenchMindCube-Tinyspatial-predictive mechanism
12 分钟 · 5 卡片 · 14 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问