世界模型太乱了……李飞飞有话说

7.7

深览指数

科技虎嗅·世界科学·昨天 22:10·AI 生成

世界模型太乱了……李飞飞有话说

李飞飞团队最新论文对当前泛滥的「世界模型」概念进行了系统分类与功能梳理。文章将各类世界模型归纳为渲染器、模拟器、规划器三大功能类型，指出三者的底层知识高度重合，正走向融合。模拟器被定位为整个体系的核心，但面临3D数据稀缺、仿真到现实鸿沟、计算成本高昂等根本性挑战。文章适合对AI空间智能、具身智能有基础认知的从业者和研究者阅读，能帮助理清混乱的术语体系。

核心观点

▍当前AI领域各分支（计算机视觉、机器人、强化学习、生成式AI）对「世界模型」的定义混乱，亟需一个统一的功能分类体系来厘清概念。
▍李飞飞团队提出，所有世界模型都可归为三大功能类型：渲染器（输出像素级视觉观测）、模拟器（输出物理和几何结构状态）、规划器（输出智能体的行动指令），三者底层知识（几何、物理、动态）高度重合，正走向融合。

01渲染器以视觉保真度为核心指标，如谷歌Nano Banana模型已服务数亿用户，但缺乏对三维空间结构的显式理解，视角切换时会出现漏洞。
02模拟器服务于两类用户：建筑师/设计师/游戏开发者等专业人群需要几何精确性；强化学习/机器人/自动驾驶系统将其作为低成本、低风险的训练场。
03规划器是实现「感知-行动闭环」的关键，催生了视觉-语言-动作模型和世界动作模型，让机器人在非结构化环境中自主决策。
04模拟器的潜在市场规模超万亿美元，仅英伟达Omniverse平台就瞄准工厂、仓库、供应链、数字孪生等领域。
05模拟器面临四大技术难题：3D标注数据极度稀缺（比视频素材难获取数个数量级）、仿真到现实的鸿沟（sim-to-real gap）、生成式几何体存在自相交和尺度错误、多物理场模拟计算成本极高。

反方 / 局限

— 当前渲染器商业化程度最高但物理准确度低，规划器最受资本追捧但大多仍局限于严苛实验室环境、任务简短、物体种类有限，从演示走向真实世界（厨房、仓库、手术室）的道路艰险漫长。

李飞飞World Labs理查德·萨顿安德鲁·巴托肯尼思·克雷克英伟达 Omniverse谷歌 Nano BananaPOMDP空间智能

10 分钟 · 5 卡片 · 14 资料

读原文 →

世界模型太乱了……李飞飞有话说

前置背景

应用场景

平行视角

争议局限

未来推演