6.3
深览指数
科技量子位··AI 生成

我把昨晚的梦输入AI,它居然直接把我拉进去玩儿了一把?!

本文以第一人称体验视角,详细介绍了阿里ATH团队推出的世界模型产品「HappyOyster 1.0」。该产品区别于传统文生视频的「单向生成不可交互」模式,主打「实时构建和交互的开放式世界」,支持用户以角色身份进入世界漫游(Adventure模式)或以上帝视角实时导演剧情(Directing模式)。作者通过大量实操体验,展示了实时动作反馈、角色一致性、剧情回溯与分支叙事等核心能力,并解释了其背后的闭环世界状态建模、内生一致性、开放因果动作空间等技术原理。文章最后展望了世界模型在游戏、互动内容、文旅等行业的应用前景,本质是一篇融合了产品评测与技术科普的深度介绍文章。原文 ↗

核心观点
  • HappyOyster 1.0的核心创新是构建了一个「可实时交互与持续演化」的开放世界模型,而非传统的单向生成视频,标志着AI生成内容从「单程票」走向「双向实时交互」的新路线。
  • 产品通过「Adventure」(世界探索)和「Directing」(实时导演)两种模式,满足了用户「作为主角进入世界」和「作为导演操控叙事」两种不同的创作与体验需求。
  1. 01在Adventure模式下,用户输入一张吉卜力风格图片后,即可扮演角色,使用加速、跳跃、攻击等按键实时探索世界,模型根据用户操作实时推演角色动作与物理反馈(如跳跃时的屈膝和镜头变化)。
  2. 02场景中的元素可自动匹配交互方式,如画面中有马车即可解锁「骑马」操作,有汽车则可实现开车灯、鸣笛,实现了「画面有什么,就能玩什么」的智能交互。
  3. 03Directing模式支持「回溯」和「剧情分支」功能,用户可在时间线上回到任意节点输入不同指令,分支出多条故事线,且所有操作均为流式生成,无需等待渲染。
  4. 04在实时导演测试中,输入「两人在舞台上激烈争吵」的起始prompt,运行20秒后输入「突然释怀,紧紧拥抱」,模型能瞬间转换角色情感和动作,且角色外貌、服装、体态全程保持一致。
  5. 05技术原理上,HappyOyster 1.0通过「闭环世界状态建模」(将世界状态压缩为隐状态摘要递归传递)实现长程一致性,支撑了暂停、回溯、分支等交互功能。
  6. 06「内生一致性」技术通过为每个角色和场景元素生成「身份卡」,在生成过程中持续进行注意力参考,从根本上解决了传统文生视频中「主体漂移」(人物换脸、衣服变色)的痛点。
  7. 07「开放因果动作空间」将自然语言与动作指令统一为语义接口,模型可自行推演「骑马」「上车」等复杂因果动作序列,无需人工预设。
  8. 08HappyOyster团队正牵头与南京大学共建世界模型评测基准,旨在为这个新兴技术赛道建立系统性的量化评估标准。
反方 / 局限
  • 文章完全从产品推介和体验赞美的立场出发,未提及任何技术局限、失败案例或潜在风险,例如模型在高复杂场景下的实时算力消耗、长时序交互中可能出现的逻辑bug、以及对大量用户并发接入的可靠性问题。
HappyOyster 1.0阿里ATH世界模型Sora南京大学Adventure模式Directing模式Latent State
11 分钟 · 4 卡片 · 10 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问