5.7
深览指数
科技微博·机器之心Pro··AI 生成
Meta蔡志鹏新作VLM³:全面揭示三维视觉的Bitter Lesson
Meta FAIR 蔡志鹏团队提出 VLM³ 方法,通过实验证明:标准视觉语言模型(VLM)加上足够大的训练数据,无需针对三维视觉任务设计专门架构、损失函数或数据增强,即可在深度估计、三维理解、像素匹配等任务上达到甚至超越专家模型。这一发现则被称为三维视觉领域的 Bitter Lesson,挑战了此前依赖 task-specific 设计的范式。本文适合关注计算机视觉、多模态大模型、基础模型范式的技术研究人员阅读。
核心观点
- ▍VLM³ 揭示了三维视觉的 Bitter Lesson:标准视觉语言模型 + 缩放数据是最简单有效的范式;针对特定任务的架构、损失函数、数据增强设计,甚至回归公式,都不是三维视觉学习的必要条件。
- ▍视觉语言模型在三维视觉任务上的能力,被严重低估了。通过极简预处理(相机焦距归一化、像素空间归一化),标准 VLM 可以在多种三维任务上媲美或超越精心设计的专家模型。
- 01在单目深度估计任务中,VLM³ 性能对等 UniDepthV2 和 MoGe2。
- 02在目标级三维理解任务上,VLM³ 超越 SpatialRGPT,且模型参数量仅为其一半(4B vs 8B),无需额外编码器。
- 03在多视角几何任务(像素匹配、相机姿态估计)上,VLM³ 远超 Qwen3-vl-32B,对等 DA3,超越 VGGT。
- 04VLM³ 基于 Qwen3-vl-4B 的架构,训练方式为标准文本 SFT,不修改 VLM 架构,也不在图像上渲染 Marker。
- 05无需依赖回归(regression)即可实现细粒度三维理解,打破了此前领域对回归设计的依赖。
- 06VLM³ 在单目深度估计上将 DepthLM 的准确率从 84 提升至 90,训练和推理更简单高效。
反方 / 局限
- — 文章虽宣称 VLM³ 成功,但其对比的专家模型(如 UniDepthV2、MoGe2)并非行业最新 SOTA。此外,VLM³ 的成功高度依赖大规模数据,对于数据资源有限的团队复制门槛高。
蔡志鹏VLM³MetaQwen3-vl-4BBitter LessonUniDepthV2MoGe2SpatialRGPTDepthLMDA3VGGTDKMRoMa
5 分钟 · 4 卡片 · 8 资料
读原文 →