哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人

7.8

深览指数

科技Bestblogs·十字路口Crossing·11小时前·AI 生成

哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人

黄碧薇教授提出以因果 AI 为核心的第四条世界模型路线，认为视频生成、3D生成和 JEPA 等主流路线停留在相关性层面，无法真正理解物理规律。她给 VLA 和 WAM 分别打了 5 分和 6.5 分，认为因果世界模型才是通往终局的“十足解法”。文章包含其创业细节（2000 万美元天使轮）和一个关键案例：仅用上百小时模拟数据，机器人便从 Pick & Place、Lift 泛化到从未训练的 Stacking 任务。适合关注具身智能技术路线、AI 前沿创业的读者。原文 ↗原文 ↗

核心观点

▍因果是世界模型实现泛化的唯一路径，模型必须在隐空间同时习得因果变量、因果结构及物理动力学，否则只是表层模仿。
▍黄碧薇认为 VLA 路线上限为 5 分，WAM 为 6.5 分，两者均无法真正理解长程任务中的物理规律，因果世界模型才是满分路线。

01Aether AI 已获 2000 万美金天使轮融资，采用四类训练数据的 80/20 配比逻辑。
02一个关键实验案例：仅用上百小时模拟数据，机器人学会 Pick & Place 和 Lift 技能后，成功泛化到从未训练的 Stacking 任务。
03黄碧薇的学术贡献在于从理论和算法层面解决了在非完美观测数据（含隐变量、偏差、分布偏移）中提取因果关系的问题。
04世界模型需三大核心要素：在隐空间学习因果变量、因果结构及其状态转移动力学。
05黄碧薇回顾了因果科学学术史：从亚里士多德哲学思辨到 CMU 的 PC 算法。

反方 / 局限

— 文章未提及因果世界模型在复杂、高维现实场景（如家庭环境）中的数据获取与计算成本挑战，也未与物理仿真模型（如 MuJoCo 力学引擎）做对比。
— VLA/WAM 路线的支持者可能会反驳，认为随着模型规模与数据量增长，相关性学习最终能涌现出物理理解，无需显式因果建模。

黄碧薇Aether AI世界模型因果AIVLA（视觉-语言-动作）WAM（世界动作模型）JEPA（联合嵌入预测架构）具身智能PC 算法卡内基梅隆大学（CMU）

4 分钟 · 4 卡片 · 11 资料

读原文 →

哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人

前置背景

技术原理

平行视角

延伸追问