7.8
深览指数
科技Bestblogs·十字路口Crossing··AI 生成
哪条路线,才能通往「世界模型」的终局?|对话黄碧薇:Aether AI 创始人
黄碧薇教授提出以因果 AI 为核心的第四条世界模型路线,认为视频生成、3D生成和 JEPA 等主流路线停留在相关性层面,无法真正理解物理规律。她给 VLA 和 WAM 分别打了 5 分和 6.5 分,认为因果世界模型才是通往终局的“十足解法”。文章包含其创业细节(2000 万美元天使轮)和一个关键案例:仅用上百小时模拟数据,机器人便从 Pick & Place、Lift 泛化到从未训练的 Stacking 任务。适合关注具身智能技术路线、AI 前沿创业的读者。原文 ↗
核心观点
- ▍因果是世界模型实现泛化的唯一路径,模型必须在隐空间同时习得因果变量、因果结构及物理动力学,否则只是表层模仿。
- ▍黄碧薇认为 VLA 路线上限为 5 分,WAM 为 6.5 分,两者均无法真正理解长程任务中的物理规律,因果世界模型才是满分路线。
- 01Aether AI 已获 2000 万美金天使轮融资,采用四类训练数据的 80/20 配比逻辑。
- 02一个关键实验案例:仅用上百小时模拟数据,机器人学会 Pick & Place 和 Lift 技能后,成功泛化到从未训练的 Stacking 任务。
- 03黄碧薇的学术贡献在于从理论和算法层面解决了在非完美观测数据(含隐变量、偏差、分布偏移)中提取因果关系的问题。
- 04世界模型需三大核心要素:在隐空间学习因果变量、因果结构及其状态转移动力学。
- 05黄碧薇回顾了因果科学学术史:从亚里士多德哲学思辨到 CMU 的 PC 算法。
反方 / 局限
- — 文章未提及因果世界模型在复杂、高维现实场景(如家庭环境)中的数据获取与计算成本挑战,也未与物理仿真模型(如 MuJoCo 力学引擎)做对比。
- — VLA/WAM 路线的支持者可能会反驳,认为随着模型规模与数据量增长,相关性学习最终能涌现出物理理解,无需显式因果建模。
黄碧薇Aether AI世界模型因果AIVLA(视觉-语言-动作)WAM(世界动作模型)JEPA(联合嵌入预测架构)具身智能PC 算法卡内基梅隆大学(CMU)
4 分钟 · 4 卡片 · 11 资料
读原文 →