7.6
深览指数
科技微博·量子位··AI 生成
入选ECCV 2026!清华开源空间模型打败Gemini:世界变化中持续学习
清华大学团队提出Spatial-TTT模型,通过将测试时训练(TTT)范式应用于流式视觉空间理解,让模型在处理长视频时能持续更新内部参数作为动态记忆,而非依赖膨胀的上下文窗口。仅2B参数的模型在VSI-Bench、MindCube-Tiny等空间智能基准上超越了GPT-5、Gemini-3-pro等闭源模型,并可在120分钟视频上运行。文章详细介绍了混合TTT架构、空间预测机制和密集场景描述监督三个核心设计,指出其意义在于从'保存更多内容'转向'形成持续的世界状态',为机器人、自动驾驶等需要长期连续运行的物理Agent系统提供了新路径。原文 ↗
核心观点
- ▍Spatial-TTT的核心贡献不在于将上下文窗口做长,而是提供了一种机制:让模型在推理过程中不断把新观察吸收进内部状态(fast weights),用参数本身的变化来承担记忆功能,从而从'保存更多内容'走向'形成持续的世界状态'。
- ▍该工作入选ECCV 2026,意味着在研究问题、方法创新与实验完整性上接受了计算机视觉顶级会议的严格同行评审。
- 01在MindCube-Tiny基准上,2B参数的Spatial-TTT准确率达76.2%,超过Gemini-3-pro(63.9%)12个百分点,超过MindCube-3B(51.7%)近25个百分点。
- 02在VSI-SUPER-Count任务中,Spatial-TTT在10、30、60、120分钟视频上的得分分别为31.8、45.6、36.2、38.4,而对比模型在更长视频上性能快速崩塌或直接OOM。
- 03模型采用混合式TTT架构,在解码器中按3:1比例交错插入TTT层与标准self-attention锚定层,TTT负责长程记忆,全注意力负责语义理解。
- 04引入空间预测机制,在TTT分支的Q/K/V中加入轻量级3D时空卷积,让fast weights学习时空上下文到时空上下文的预测关系。
- 05构建了稠密3D场景描述数据作为监督信号,采用两阶段渐进式训练:先学习'记住整个空间',再用数百万条空间VQA数据强化具体推理能力。
- 06消融实验显示:去掉空间预测机制,VSI-Bench平均分从64.4降到62.1;去掉密集场景描述监督,降到61.3;只用纯TTT架构则降到53.9。
- 07在1024帧输入下,Spatial-TTT-2B的峰值显存为11.9GB,计算量799.4 TFLOPs,对比大厂模型分别节省超过40%。
反方 / 局限
- — 文章未主动提及模型在真实物理世界(如机器人实际行走、自动驾驶开放道路)中的部署验证,所有评测仍基于已有基准数据集。从基准到真实物理Agent的跨越可能还存在未暴露的工程与鲁棒性问题。
Spatial-TTT测试时训练 (TTT)fast weightsECCV 2026清华大学刘芳甫Gemini-3-proVSI-BenchMindCube-TinyGPT-5
10 分钟 · 4 卡片 · 10 资料
读原文 →