8.3
深览指数
商业腾讯新闻·钛媒体APP··AI 生成
世界模型不是错了,是太早被卖贵了
本文指出世界模型热潮存在五重系统性的“错配”:概念上沦为融资标签,能力上demo与可交付间存在物理一致性鸿沟,评测上缺乏公认基准时“全球第一”满天飞,商业上按基础设施定价却只在收工具的钱,叙事上把与大模型的互补关系包装成替代关系。作者不否定方向,但认为估值与营收、叙事与技术之间的巨大落差,会让多数公司被市场重新定价。适合关注AI产业、投资和商业策略的读者,判断风向而非看技术原理。原文 ↗
核心观点
- ▍世界模型这一轮热度是被资本和营销提前点燃的,技术的成熟度和商业的兑现能力远远配不上目前的估值和声量,核心问题是节奏错配:价格跑在了能力前面。
- ▍五重错配分别是:概念错配(世界模型变成无所不包的融资标签)、能力错配(生成式demo与可靠交付之间的鸿沟)、评测错配(缺乏公认基准下“全球第一”泛滥)、商业错配(按基础设施定价却只能按工具收费)、叙事错配(将互补关系包装为替代关系以制造紧迫感)。
- 01多家世界模型公司密集拿到大额融资:极佳视界月内累计融资约25亿元、估值突破百亿;千寻智能三个月连做四轮、累计超45亿元、估值突破200亿元;Yann LeCun创立的AMI Labs种子轮融资10.3亿美元、投前估值35亿美元。
- 02今天被归进“世界模型”的东西至少分属四条技术路线:实时交互视频生成(生数科技、阿里HappyOyster)、三维重建与空间智能(World Labs、群核科技)、具身智能虚拟训练(极佳视界、千寻)、智驾仿真(华为、吉利、Momenta),各条路线解决的根本不是同一个问题。
- 03生成式世界模型的根本软肋在于学的是“什么样的画面看起来合理”而不是“世界为什么这样运转”,具体表现为物体穿模、水往高处流、镜头转回去东西就变了样等物理一致性问题,这些不是调参bug,而是“用生成去逼近理解”路线的结构性代价。
- 04目前能看到的商业化路径主要集中在两块:给具身智能和自动驾驶提供仿真训练数据,以及面向专业用户的三维内容生成工具,但这两块市场都不大且有强力替代方案(传统仿真引擎、真机采集、专业工具链)。
- 05作者判断:视频生成派会最先现出原形,因为它离通用多模态大模型最近、护城河最浅,当OpenAI、谷歌、字节等把“可交互视频生成”顺手做进通用模型,目前靠炫酷demo撑起估值的公司会最先发现不可替代,时间窗是未来12到18个月。
- 06作者主张:与其做“通用世界模型”,不如把一个窄场景(例如机械臂对线缆、布料、食品袋等柔性物体的抓取与装配)的sim-to-real做到别人够不着的深度,把迁移成功率逼近95%以上,建立工程壁垒。
反方 / 局限
- — 作者承认技术泡沫并非纯粹的浪费:2000年互联网泡沫留下的光纤基础设施喂养了后来的宽带和云计算,类似地,这轮热钱也会留下被高强度训练出来的空间智能/具身人才、被资本逼着开源的模型与数据集,以及一个被反复教育、开始认真对待“AI进入物理世界”的产业市场。
- — 作者承认自己不否定方向,认同李飞飞判断的“空间智能是AI的下一个十年”戳中了三个真实的产业痛点(机器人缺乏真实训练数据、自动驾驶被长尾数据成本拖住、高质量3D内容生产成本太高),文章质疑的是节奏而非方向。
- — 作者指出大模型路线远未停下来:合成数据、强化学习后训练、推理时计算(test-time compute)、多模态融合都在持续推开能力边界,“数据墙”不像两年前喊的那么铁板一块。
12 分钟 · 4 卡片 · 12 资料
读原文 →