6.0
深览指数
产品量子位··AI 生成

24小时直播,只靠一张照片?虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

虎牙发布了基于DiT架构的实时多模态数字人基础模型VAM 1.0,主打“一张照片”生成数字人并实现24小时不间断直播。文章通过实测展示了其在实时对话、唱跳、游戏陪玩等场景下的交互能力,并剖析了其解决的“时间墙”、“交互墙”、“部署墙”三大行业难题。该模型强调从“内容生产工具”向“实时交互主体”的转变,适合关注AI落地、直播技术、虚拟人产业的从业者阅读。原文 ↗

核心观点
  • 虎牙VAM 1.0的核心定位是打造“实时交互主体”而非单纯的“内容生产工具”,通过翻越时间、交互、部署三堵墙,实现AI数字人的长时间稳定直播与深度互动。
  1. 01VAM 1.0仅需一张照片即可生成数字人,支持480×832分辨率、28帧实时流式输出,可连续运行24小时以上。
  2. 02实测展示了数字人具备“全状态拟人交互仿真”,覆盖静默、聆听、说话三种状态,支持语音和文字双链路交互,能自然处理打断和话题切换。
  3. 03为解决“时间墙”(长时间运行导致画面漂移),VAM 1.0采用三阶段训练:先用多张参考图锚定形象,再用DPO偏好优化平衡多目标,最后通过模型蒸馏将计算步数从20步压缩至4步,并引入自纠错机制。
  4. 04为解决“交互墙”,模型从设计阶段原生支持静默、聆听、说话三种状态及全双工即时打断能力。
  5. 05为解决“部署墙”,团队做了全链路工程优化,在8块H200 GPU上达到36.4帧/秒的推理速度,首帧延迟约1.3秒,后续片段延迟仅0.77秒,且在多项benchmark中全面领先。
  6. 06文章列举了VAM 1.0已跑通的场景:才艺主播、带货主播、新闻主播等。
反方 / 局限
  • 文章本质是虎牙的PR软文,对产品能力和体验极尽正面描述,缺乏对失败案例、技术局限(如复杂环境下的鲁棒性、成本细节)的批判性讨论。
  • 文章未提及AI数字人可能带来的伦理争议,如虚拟主播替代真人主播对就业的影响、身份伪造风险、过度拟人化导致的情感依赖等。
  • 文中“24小时直播”的稳定性数据为官方宣称,缺乏独立第三方验证;实测体验的样本量(1名测试者,1小时)不足以代表复杂场景下的普遍表现。
16 分钟 · 4 卡片 · 10 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问