24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0来了

6.1

深览指数

产品微博·量子位·4小时前·AI 生成

24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0来了

虎牙发布基于DiT架构的实时多模态数字人基础模型VAM 1.0，仅需一张照片即可生成能实时互动、唱歌跳舞、玩游戏的AI数字人。文章通过实测展示了其在直播场景下的稳定性（连续运行24小时）、交互性（全双工对话、打断响应）和底层技术（三阶段训练、DPO优化、模型蒸馏）。作者断言数字人正从「内容生产工具」转向「实时交互主体」，虎牙凭借直播场景积累拥有独特优势。适合关注AI应用落地、直播技术演进的从业者阅读。原文 ↗原文 ↗

核心观点

▍AI数字人的核心分野在于它是「内容生产工具」还是「实时交互主体」；虎牙VAM 1.0选择了后者，需同时攻克时间、交互、部署三堵技术墙。

01虎牙VAM 1.0基于DiT架构，仅需一张照片就能生成可实时互动的数字人，支持480×832分辨率、28帧实时流式输出，可连续运行24小时以上。
02实测中数字人具备全双工对话能力：可被打断后自然接话、记住用户自定义称呼（如「叫我小红」）、根据话题自动切换方言（如四川话）。
03数字人覆盖静默、聆听、说话三种状态：听人说话时微侧头、眨眼、点头；说话时表情与内容匹配，情绪感染力强。
04歌舞、塔罗游戏等互动内容为实时生成而非预设模板：反复开关后内容不重样；狼人杀场景中9个AI角色各有独立立场和发言风格。
05虎牙VAM 1.0通过三阶段训练解决「时间墙」：第一阶段用参考图和运动帧锚定形象并预训练劣化场景；第二阶段用DPO偏好优化平衡多目标；第三阶段通过模型蒸馏（20步→4步）实现实时推理。
06交互墙方面，方案原生支持弹幕+语音双链路，在模型设计阶段将「全双工」作为核心目标。
07部署墙方面，全链路工程优化后，在8块H200 GPU集群上达到36.4帧/秒推理速度，首帧延迟1.3秒，每片段延迟0.77秒。
08虎牙从2019年起布局AI数字人，先后推出「晚玉」、HERO开放平台、虎小Ai，VAM 1.0是将散点连成线的产物。

反方 / 局限

— 文章未讨论VAM 1.0在复杂场景（如多人连麦、高并发弹幕、恶意内容）下的表现极限，也未与百度、腾讯、商汤等大厂同类产品做横向对比。

虎牙 VAM 1.0 DiT架构全双工 DPO偏好优化模型蒸馏 H200 GPU 虎小Ai HERO开放平台

12 分钟 · 4 卡片 · 12 资料

读原文 →

24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0来了

前置背景

平行视角

未来推演

延伸追问