7.8
深览指数
科技Bestblogs·AI前线··AI 生成

腾讯王腾飞:从生成内容到生成环境,世界模型的 3D 落地之路

腾讯混元世界模型团队负责人王腾飞在专访中提出,世界模型交付的是「可运行环境」而非内容,其门槛远高于视频生成。文章拆解了HY-World 2.0的四阶段模块化流程,论证3D是当前世界模型落地最可行的载体,并揭示了领域内评测标准稀缺的核心瓶颈。适合关注3D生成、具身智能及AI产品落地的技术决策者与产品经理阅读。原文 ↗

核心观点
  • 世界模型的核心交付物是「可运行环境」,满足状态持续、物理准确、可交互三个特征,与视频生成和3D生成有本质区别。
  • 3D是当前世界模型落地最具可行性的载体,因其天然一致性、可编辑复用、物理精确且成本可在大规模分发中摊销。
  1. 01HY-World 2.0采用四阶段模块化流程(全景生成→轨迹规划→世界扩展→世界合成),而非端到端模型,这提高了可控性与可解释性。
  2. 02王腾飞将四阶段流程对应到人类认知过程:感知→理解→想象→重建,并指出这是目前打通3D全链路的主要工程方案。
  3. 03WorldLens渲染平台解决了从模型生成到接入游戏引擎或仿真环境的「最后几公里」问题。
  4. 04文章指出游戏数字世界可作为物理世界的可控代理,因为两者共享感知、仿真、推理、规划的核心技术框架。
  5. 05当前领域最稀缺的资源是评测标准,许多现有指标与人类主观感知脱节,建立良性评测体系是社区亟需的公共品。
  6. 06腾讯提出将渲染器与仿真器合并看待的实践策略,这是对李飞飞「世界模型三层定义」的一种工程化修正。
反方 / 局限
  • 文章坦承当前世界模型在动态物体、铰接物理、物理参数估计和物体级语义解耦方面仍处于早期阶段,远未达到「像真实世界一样操作万物」。
  • 在3D场景中,一次模型的落地成本很高,但作者认为这一成本可以通过大规模分发摊销,其经济性仍待验证。
3 分钟 · 4 卡片 · 9 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问