24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙 - 深览

6.0

深览指数

产品量子位·3小时前·AI 生成

24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

虎牙发布了基于DiT架构的实时多模态数字人基础模型VAM 1.0，主打“一张照片”生成数字人并实现24小时不间断直播。文章通过实测展示了其在实时对话、唱跳、游戏陪玩等场景下的交互能力，并剖析了其解决的“时间墙”、“交互墙”、“部署墙”三大行业难题。该模型强调从“内容生产工具”向“实时交互主体”的转变，适合关注AI落地、直播技术、虚拟人产业的从业者阅读。原文 ↗原文 ↗

核心观点

▍虎牙VAM 1.0的核心定位是打造“实时交互主体”而非单纯的“内容生产工具”，通过翻越时间、交互、部署三堵墙，实现AI数字人的长时间稳定直播与深度互动。

01VAM 1.0仅需一张照片即可生成数字人，支持480×832分辨率、28帧实时流式输出，可连续运行24小时以上。
02实测展示了数字人具备“全状态拟人交互仿真”，覆盖静默、聆听、说话三种状态，支持语音和文字双链路交互，能自然处理打断和话题切换。
03为解决“时间墙”（长时间运行导致画面漂移），VAM 1.0采用三阶段训练：先用多张参考图锚定形象，再用DPO偏好优化平衡多目标，最后通过模型蒸馏将计算步数从20步压缩至4步，并引入自纠错机制。
04为解决“交互墙”，模型从设计阶段原生支持静默、聆听、说话三种状态及全双工即时打断能力。
05为解决“部署墙”，团队做了全链路工程优化，在8块H200 GPU上达到36.4帧/秒的推理速度，首帧延迟约1.3秒，后续片段延迟仅0.77秒，且在多项benchmark中全面领先。
06文章列举了VAM 1.0已跑通的场景：才艺主播、带货主播、新闻主播等。

反方 / 局限

— 文章本质是虎牙的PR软文，对产品能力和体验极尽正面描述，缺乏对失败案例、技术局限（如复杂环境下的鲁棒性、成本细节）的批判性讨论。
— 文章未提及AI数字人可能带来的伦理争议，如虚拟主播替代真人主播对就业的影响、身份伪造风险、过度拟人化导致的情感依赖等。
— 文中“24小时直播”的稳定性数据为官方宣称，缺乏独立第三方验证；实测体验的样本量（1名测试者，1小时）不足以代表复杂场景下的普遍表现。

虎牙 VAM 1.0 DiT架构 DPO偏好优化算法 H200 GPU 量子位罗永浩刘强东

16 分钟 · 4 卡片 · 10 资料

前置背景

平行视角

未来推演

延伸追问