6.1
深览指数
科技虎嗅·宋思杭··AI 生成

那家孵化出千亿市值公司的研究院,选择押注世界模型

智源研究院院长王仲远首次系统性划分了世界模型的四类技术路线,并宣布智源选择第五种——语言与视觉表征结合的潜空间表征路线。文章指出,当前行业普遍将视觉能力与物理理解混为一谈,世界模型的核心在于具备泛化的物理状态预测能力,而非像素或语言的描述。对于关注前沿技术路线选择、AI从数字世界向物理世界迁移的读者,此文是对智源战略与世界观的一次清晰陈述。原文 ↗

核心观点
  • 智源认为世界模型的核心不是生成视频或语言描述,而是具备泛化能力的通用世界基座模型,能够理解并预测物理世界状态。
  • 当前行业将视觉能力(如VLM/VLA)与物理理解混为一谈,是普遍误区;这些模型本质上停留在语言或像素描述层,并未触及物理状态预测。
  1. 01智源院长王仲远首次为世界模型划分了四类技术路线:语言为中心(VLM/VLA)、像素为中心(Sora)、三维结构为中心(李飞飞空间智能)、视觉表征为中心(LeCun的隐空间模型)。
  2. 02智源选择第五种路线:语言与视觉表征结合,在统一的潜空间中解码不同模态。
  3. 03智源已推出两个世界模型相关成果:通用世界基座模型悟界·Physis-v0.1(由22岁科学家陈博远负责),以及具身大脑悟界·RoboBrain Orca(由王鹏伟带队)。
  4. 04智源是中国大模型浪潮的关键人才源头,走出了智谱(唐杰)、月之暗面(杨植麟)、面壁智能(刘知远)、银河通用(王鹤)等创业者。
  5. 052026年一季度具身智能产业链一级市场融资达2560亿元,行业出现头部化趋势,资本涌向上游如世界模型方向。
  6. 06王仲远用2岁小女孩通过看短视频学会拆糖果、串蓝莓的例子,类比世界模型应像人类一样从视觉中自主学习物理交互能力。
反方 / 局限
  • 作者承认世界模型目前没有统一定义,没有统一技术路线,各家公司“各说各的”,非行业人士难以分辨。
  • 王仲远将当前世界模型的发展阶段类比为2012年的深度学习(AlexNet时代),暗示距离技术收敛和实际落地还有很长的路。
智源研究院王仲远陈博远王鹏伟唐杰杨植麟刘知远王鹤世界模型具身智能悟道大模型悟界·Physis-v0.1悟界·RoboBrain OrcaVLM/VLA隐空间(Latent Space)Yann LeCun李飞飞OpenAI Sora智谱月之暗面面壁智能银河通用
7 分钟 · 5 卡片 · 13 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问