图灵奖得主押上10亿美元的「世界模型」，是AI的下一个十年？（下）

8.5

深览指数

科技腾讯新闻·6小时前·AI 生成

图灵奖得主押上10亿美元的「世界模型」，是AI的下一个十年？（下）

本文深度延展 Yann LeCun 的 JEPA 技术路线，将其与主流的 VLA（视觉-语言-动作）架构进行三层面逐层对比。第一层：视觉编码器，不依赖语言的 V-JEPA 2 在视频理解基准上达到 SOTA；第二层：VL-JEPA 将架构扩展到整个 VLM，以 16 亿参数打赢 70 亿参数竞品；第三层：机器人控制，JEPA 的 push-T 世界模型仅能可靠规划 5 步，远落后于 VLA。作者完整呈现了 LeCun 对 VLA“行为克隆不可规模化”和“缺乏明确规划”的双重批判，以及他提出的分层世界模型解法，同时诚实地指出了 JEPA 当前的短板——离真正可用还有很大距离。适合已了解 JEPA 基础概念、想评估这条反主流路线实际进展与局限的 AI 从业者。原文 ↗原文 ↗

核心观点

▍LeCun 断言以 VLA（视觉-语言-动作）为代表的生成式、语言驱动路线“必死”，世界模型 + 显式规划才是通往可靠智能体的正确路径。
▍JEPA 架构的核心优势在于：通过预测目标文本/视频的嵌入向量而非重构原始内容，能抽象掉无关细节，从而显著提升学习效率与泛化能力。

01第一层对比：Meta 2025 年训练的 V-JEPA 2（基于 100 万小时视频，10 亿参数），在视频理解基准 TempCompass 等上达到 SOTA，超越了依赖语言监督的 CLIP 类编码器。
02第二层对比：Meta 2025 年底的 VL-JEPA 将 JEPA 架构扩展到整个 VLM，在 GQA 组合视觉推理基准上，16 亿参数的 VL-JEPA 直接战胜了 70 亿参数的传统 VLM。
03第三层对比：LeCun 的 JEPA 世界模型（LeWorldModel）通过交叉熵方法在嵌入空间中显式规划动作，能自主完成 push-T 任务，无需人类示范。
04LeCun 对 VLA 的批判归结两点：①依赖海量人类示范进行行为克隆，无法规模化应对未见过的新场景；②端到端训练，系统无法预测自身行为后果，缺乏显式规划，本质是黑箱。
05Physical Intelligence 的 𝝅0.7 VLA 模型能完成削西葫芦皮、折纸风车等复杂任务，展示了当前 VLA 路线的惊艳表现。
06Google 的 RT-2 在 2023 年展示了 VLA 的泛化能力：将预训练的“泰勒·斯威夫特”概念与人类示范中学到的“移动物体”动作组合，完成新任务。

反方 / 局限

— JEPA 世界模型目前性能大幅落后于 VLA：push-T 演示中仅能可靠向前规划约 5 步，被限制在简单操作上，而 VLA 已能处理削西葫芦等任务。
— LeCun 承认 VLA 已被证明能泛化到训练示范之外的新任务（如 RT-2 的案例），其“不可规模化”的批判存在渐进范围——当前 VLA 的泛化更多体现在与训练数据相似的任务上。
— LeCun 的分层世界模型解法虽然将规划步长从 5 步延伸到了 15 步，但高层预测的成功涌现高度依赖“半专家级”训练数据质量，目前仍是理论构想。

Yann LeCunJEPAVLAVLMCLIPV-JEPA 2VL-JEPALeWorldModelpush-TPhysical IntelligenceAMI LabsMetaOpenAI行为克隆交叉熵方法分层世界模型

27 分钟 · 5 卡片 · 15 资料

读原文 →

图灵奖得主押上10亿美元的「世界模型」，是AI的下一个十年？（下）

前置背景

平行视角

争议局限

未来推演

延伸追问