Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

5.7

深览指数

科技微博·机器之心Pro·昨天 15:08·AI 生成

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

Meta FAIR 蔡志鹏团队提出 VLM³ 方法，通过实验证明：标准视觉语言模型（VLM）加上足够大的训练数据，无需针对三维视觉任务设计专门架构、损失函数或数据增强，即可在深度估计、三维理解、像素匹配等任务上达到甚至超越专家模型。这一发现则被称为三维视觉领域的 Bitter Lesson，挑战了此前依赖 task-specific 设计的范式。本文适合关注计算机视觉、多模态大模型、基础模型范式的技术研究人员阅读。

核心观点

▍VLM³ 揭示了三维视觉的 Bitter Lesson：标准视觉语言模型 + 缩放数据是最简单有效的范式；针对特定任务的架构、损失函数、数据增强设计，甚至回归公式，都不是三维视觉学习的必要条件。
▍视觉语言模型在三维视觉任务上的能力，被严重低估了。通过极简预处理（相机焦距归一化、像素空间归一化），标准 VLM 可以在多种三维任务上媲美或超越精心设计的专家模型。

01在单目深度估计任务中，VLM³ 性能对等 UniDepthV2 和 MoGe2。
02在目标级三维理解任务上，VLM³ 超越 SpatialRGPT，且模型参数量仅为其一半（4B vs 8B），无需额外编码器。
03在多视角几何任务（像素匹配、相机姿态估计）上，VLM³ 远超 Qwen3-vl-32B，对等 DA3，超越 VGGT。
04VLM³ 基于 Qwen3-vl-4B 的架构，训练方式为标准文本 SFT，不修改 VLM 架构，也不在图像上渲染 Marker。
05无需依赖回归（regression）即可实现细粒度三维理解，打破了此前领域对回归设计的依赖。
06VLM³ 在单目深度估计上将 DepthLM 的准确率从 84 提升至 90，训练和推理更简单高效。

反方 / 局限

— 文章虽宣称 VLM³ 成功，但其对比的专家模型（如 UniDepthV2、MoGe2）并非行业最新 SOTA。此外，VLM³ 的成功高度依赖大规模数据，对于数据资源有限的团队复制门槛高。

蔡志鹏VLM³MetaQwen3-vl-4BBitter LessonUniDepthV2MoGe2SpatialRGPTDepthLMDA3VGGTDKMRoMa

5 分钟 · 4 卡片 · 8 资料

读原文 →

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

前置背景

技术原理

平行视角

延伸追问