7.7
深览指数
科技虎嗅·世界科学··AI 生成

世界模型太乱了……李飞飞有话说

李飞飞团队最新论文对当前泛滥的「世界模型」概念进行了系统分类与功能梳理。文章将各类世界模型归纳为渲染器、模拟器、规划器三大功能类型,指出三者的底层知识高度重合,正走向融合。模拟器被定位为整个体系的核心,但面临3D数据稀缺、仿真到现实鸿沟、计算成本高昂等根本性挑战。文章适合对AI空间智能、具身智能有基础认知的从业者和研究者阅读,能帮助理清混乱的术语体系。

核心观点
  • 当前AI领域各分支(计算机视觉、机器人、强化学习、生成式AI)对「世界模型」的定义混乱,亟需一个统一的功能分类体系来厘清概念。
  • 李飞飞团队提出,所有世界模型都可归为三大功能类型:渲染器(输出像素级视觉观测)、模拟器(输出物理和几何结构状态)、规划器(输出智能体的行动指令),三者底层知识(几何、物理、动态)高度重合,正走向融合。
  1. 01渲染器以视觉保真度为核心指标,如谷歌Nano Banana模型已服务数亿用户,但缺乏对三维空间结构的显式理解,视角切换时会出现漏洞。
  2. 02模拟器服务于两类用户:建筑师/设计师/游戏开发者等专业人群需要几何精确性;强化学习/机器人/自动驾驶系统将其作为低成本、低风险的训练场。
  3. 03规划器是实现「感知-行动闭环」的关键,催生了视觉-语言-动作模型和世界动作模型,让机器人在非结构化环境中自主决策。
  4. 04模拟器的潜在市场规模超万亿美元,仅英伟达Omniverse平台就瞄准工厂、仓库、供应链、数字孪生等领域。
  5. 05模拟器面临四大技术难题:3D标注数据极度稀缺(比视频素材难获取数个数量级)、仿真到现实的鸿沟(sim-to-real gap)、生成式几何体存在自相交和尺度错误、多物理场模拟计算成本极高。
反方 / 局限
  • 当前渲染器商业化程度最高但物理准确度低,规划器最受资本追捧但大多仍局限于严苛实验室环境、任务简短、物体种类有限,从演示走向真实世界(厨房、仓库、手术室)的道路艰险漫长。
李飞飞World Labs理查德·萨顿安德鲁·巴托肯尼思·克雷克英伟达 Omniverse谷歌 Nano BananaPOMDP空间智能
10 分钟 · 5 卡片 · 14 资料
读原文 →

前置背景

应用场景

平行视角

争议局限

未来推演