8.5
深览指数
科技腾讯新闻··AI 生成
图灵奖得主押上10亿美元的「世界模型」,是AI的下一个十年?(下)
本文深度延展 Yann LeCun 的 JEPA 技术路线,将其与主流的 VLA(视觉-语言-动作)架构进行三层面逐层对比。第一层:视觉编码器,不依赖语言的 V-JEPA 2 在视频理解基准上达到 SOTA;第二层:VL-JEPA 将架构扩展到整个 VLM,以 16 亿参数打赢 70 亿参数竞品;第三层:机器人控制,JEPA 的 push-T 世界模型仅能可靠规划 5 步,远落后于 VLA。作者完整呈现了 LeCun 对 VLA“行为克隆不可规模化”和“缺乏明确规划”的双重批判,以及他提出的分层世界模型解法,同时诚实地指出了 JEPA 当前的短板——离真正可用还有很大距离。适合已了解 JEPA 基础概念、想评估这条反主流路线实际进展与局限的 AI 从业者。原文 ↗
核心观点
- ▍LeCun 断言以 VLA(视觉-语言-动作)为代表的生成式、语言驱动路线“必死”,世界模型 + 显式规划才是通往可靠智能体的正确路径。
- ▍JEPA 架构的核心优势在于:通过预测目标文本/视频的嵌入向量而非重构原始内容,能抽象掉无关细节,从而显著提升学习效率与泛化能力。
- 01第一层对比:Meta 2025 年训练的 V-JEPA 2(基于 100 万小时视频,10 亿参数),在视频理解基准 TempCompass 等上达到 SOTA,超越了依赖语言监督的 CLIP 类编码器。
- 02第二层对比:Meta 2025 年底的 VL-JEPA 将 JEPA 架构扩展到整个 VLM,在 GQA 组合视觉推理基准上,16 亿参数的 VL-JEPA 直接战胜了 70 亿参数的传统 VLM。
- 03第三层对比:LeCun 的 JEPA 世界模型(LeWorldModel)通过交叉熵方法在嵌入空间中显式规划动作,能自主完成 push-T 任务,无需人类示范。
- 04LeCun 对 VLA 的批判归结两点:①依赖海量人类示范进行行为克隆,无法规模化应对未见过的新场景;②端到端训练,系统无法预测自身行为后果,缺乏显式规划,本质是黑箱。
- 05Physical Intelligence 的 𝝅0.7 VLA 模型能完成削西葫芦皮、折纸风车等复杂任务,展示了当前 VLA 路线的惊艳表现。
- 06Google 的 RT-2 在 2023 年展示了 VLA 的泛化能力:将预训练的“泰勒·斯威夫特”概念与人类示范中学到的“移动物体”动作组合,完成新任务。
反方 / 局限
- — JEPA 世界模型目前性能大幅落后于 VLA:push-T 演示中仅能可靠向前规划约 5 步,被限制在简单操作上,而 VLA 已能处理削西葫芦等任务。
- — LeCun 承认 VLA 已被证明能泛化到训练示范之外的新任务(如 RT-2 的案例),其“不可规模化”的批判存在渐进范围——当前 VLA 的泛化更多体现在与训练数据相似的任务上。
- — LeCun 的分层世界模型解法虽然将规划步长从 5 步延伸到了 15 步,但高层预测的成功涌现高度依赖“半专家级”训练数据质量,目前仍是理论构想。
Yann LeCunJEPAVLAVLMCLIPV-JEPA 2VL-JEPALeWorldModelpush-TPhysical IntelligenceAMI LabsMetaOpenAI行为克隆交叉熵方法分层世界模型
27 分钟 · 5 卡片 · 15 资料
读原文 →