科技Bestblogs·屠龙之术··AI 生成
World Model-世界模型也有 Scaling Law 吗?
深入探讨世界模型为何成为 AI 新风口,系统对比其与大语言模型在数据、成本、安全等维度的根本差异。核心观点是:物理世界的Scaling Law是高摩擦版本,不会像文本模型那样平滑快速涌现。以自动驾驶公司Momenta为样本,论证了物理世界AI的「GPT时刻」尚未到来,将是一个渐进式的场景落地过程。原文 ↗原文 ↗
核心观点
- ▍世界模型并非仅是视频生成,而是对物理世界的理解与预测。理想的模型应能同时完成渲染、物理状态模拟和行动规划,真正理解几何、物理动力学和因果链条。
- ▍世界模型的Scaling Law是高摩擦版本,不会复制语言模型的平滑爆发。物理世界的数据获取成本高昂、信息密度更低、安全要求极高且反馈周期长,导致其能力提升路径更为渐进和昂贵。
- 01李飞飞将世界模型分为渲染器、仿真器和规划器三层,分别对应视觉生成、物理状态模拟和行动规划功能。
- 02语言模型预测下一个token压缩的是常识和知识,世界模型预测的是下一个物理状态,压缩的是物理行业的定律。
- 03Momenta的商业模式是通过与多家车企合作获取多样化真实驾驶数据,优化模型后反哺自动驾驶方案,形成‘更多车-更多数据-更好模型-更多合作’的闭环。
- 04物理世界的数据获取成本是文本世界的数百倍,且每一帧图像的信息密度远低于一个文本token,导致scaling效率偏低。
- 05物理世界的容错率极低,例如自动驾驶中一个错误的决策可能导致生命安全风险,这使得安全验证成本极高。
反方 / 局限
- — 目前未观察到类似大语言模型的涌现现象,说明世界模型可能缺乏类似文本数据中隐含的、通用的认知结构。
- — 文章暗示当前世界模型处于类似GPT-2的阶段,方向明确但缺乏像ChatGPT那样人人可用的低门槛通用产品。
概念锚点
前置背景
平行视角
未来推演
延伸追问