7.8
深览指数
科技虎嗅·宋思杭··AI 生成

这个00后凭什么拿到高瓴们的1亿美元

本文专访逆矩阵创始人陈博远,解析其创立的通用世界基座模型公司为何能快速获得高瓴等机构超1亿美元融资,估值超50亿。文章核心主张是:世界模型必须走一条不同于大语言模型的Scaling路径——在物理隐空间做压缩,原生引入动作交互,并通过强化学习验证。它区分了W0-W5的世界模型等级,认为当前多数模型停留在W0-W1(视频生成/游戏交互),而逆矩阵的目标是W2+(真正懂物理),并最终实现跨场景泛化。文章提供了关于数据策略(第一人称视角主导、三层数据金字塔)和团队背景(00后、北大元培、ACL最佳论文)的具体信息,适合关注AI前沿技术路线、具身智能投资逻辑的读者。原文 ↗

核心观点
  • 世界模型必须走一条不同于大语言模型的新Scaling路径:在物理隐空间压缩,原生引入动作交互,并通过强化学习验证,而不是在像素空间或token空间堆砌数据。
  • 未来一定会出现一个能够跨场景迁移的通用物理世界基座模型,它会成为AI走向物理世界的基础设施,类似于大语言模型统一了文本任务。
  1. 01逆矩阵团队观察到,随着数据规模、参数规模提升,并引入主动交互和状态预测后,模型泛化误差持续下降,出现了类似“涌现”的能力。
  2. 02团队将世界模型能力划分为W0-W5等级,认为当前多数模型(如Sora、Genie 3)停留在W0-W1,而逆矩阵的目标是W2+(真正懂物理),并最终走向W4(通用泛化)。
  3. 03在数据层面,团队采用“三层金字塔”结构:第一层学习“世界有哪些状态”(大量真实视频),第二层学习“动作导致状态变化”(第一人称数据为主),第三层学习长尾和稀疏物理规律(仅占1%-0.5%)。
  4. 04团队内部发现,引入跨场景数据后,在某一个垂类场景里,数据需求量能够降低20倍,但效果反而更好,因为模型学到了更通用的物理规律。
  5. 05团队特别看重第一人称(egocentric)数据,因为它天然带有Action→State的因果结构,并认为未来第一人称与多视角数据的比例可能达到100:1。
  6. 06陈博远在北大元培期间曾凭借强化学习和大模型研究获得ACL最佳论文,与DeepSeek团队同届。
  7. 07逆矩阵首轮获得高瓴和北大系基金超千万美元投资,即将完成新一轮过亿美元融资,估值超50亿元人民币,是估值最高的00后AI公司之一。
  8. 08陈博远于2025年4月16日担任智源研究院行为世界模型创新中心负责人,直接向院长王仲远汇报,旨在将逆矩阵已验证的能力放大到更大规模场景。
反方 / 局限
  • 作者承认“基模”概念在行业中被滥用和误解:很多团队仅基于开源模型微调,就包装成“预训练”故事,这导致投资人对逆矩阵的“基座模型”定位产生天然偏见。
  • 作者指出,当前行业真实采集的物理数据质量普遍不高,存在设备噪音、硬件误差以及设备与真实世界之间的Gap,这限制了世界模型的数据基础。
18 分钟 · 5 卡片 · 14 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问