6.1
深览指数
产品微博·量子位··AI 生成

24小时直播,只靠一张照片?虎牙实时多模态数字人VAM 1.0来了

虎牙发布基于DiT架构的实时多模态数字人基础模型VAM 1.0,仅需一张照片即可生成能实时互动、唱歌跳舞、玩游戏的AI数字人。文章通过实测展示了其在直播场景下的稳定性(连续运行24小时)、交互性(全双工对话、打断响应)和底层技术(三阶段训练、DPO优化、模型蒸馏)。作者断言数字人正从「内容生产工具」转向「实时交互主体」,虎牙凭借直播场景积累拥有独特优势。适合关注AI应用落地、直播技术演进的从业者阅读。原文 ↗

核心观点
  • AI数字人的核心分野在于它是「内容生产工具」还是「实时交互主体」;虎牙VAM 1.0选择了后者,需同时攻克时间、交互、部署三堵技术墙。
  1. 01虎牙VAM 1.0基于DiT架构,仅需一张照片就能生成可实时互动的数字人,支持480×832分辨率、28帧实时流式输出,可连续运行24小时以上。
  2. 02实测中数字人具备全双工对话能力:可被打断后自然接话、记住用户自定义称呼(如「叫我小红」)、根据话题自动切换方言(如四川话)。
  3. 03数字人覆盖静默、聆听、说话三种状态:听人说话时微侧头、眨眼、点头;说话时表情与内容匹配,情绪感染力强。
  4. 04歌舞、塔罗游戏等互动内容为实时生成而非预设模板:反复开关后内容不重样;狼人杀场景中9个AI角色各有独立立场和发言风格。
  5. 05虎牙VAM 1.0通过三阶段训练解决「时间墙」:第一阶段用参考图和运动帧锚定形象并预训练劣化场景;第二阶段用DPO偏好优化平衡多目标;第三阶段通过模型蒸馏(20步→4步)实现实时推理。
  6. 06交互墙方面,方案原生支持弹幕+语音双链路,在模型设计阶段将「全双工」作为核心目标。
  7. 07部署墙方面,全链路工程优化后,在8块H200 GPU集群上达到36.4帧/秒推理速度,首帧延迟1.3秒,每片段延迟0.77秒。
  8. 08虎牙从2019年起布局AI数字人,先后推出「晚玉」、HERO开放平台、虎小Ai,VAM 1.0是将散点连成线的产物。
反方 / 局限
  • 文章未讨论VAM 1.0在复杂场景(如多人连麦、高并发弹幕、恶意内容)下的表现极限,也未与百度、腾讯、商汤等大厂同类产品做横向对比。
12 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问