实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

6.9

深览指数

产品腾讯新闻·夕小瑶科技说·2小时前·AI 生成

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎发布豆包音频生成模型1.0(Seed-Audio 1.0)，从语音合成升级为全要素直出的音频生成。实测显示，该模型不仅能生成极度逼真的人类声音，还能在同一段音频中一次性输出多角色对话、环境音、特效声、BGM等影视级完整声景，无需后期拼接。作者通过打工人续集、漫剧配音、世界杯解说、诗句朗读、四川方言等案例，论证了该模型已接近成片级交付水准，并认为这是语音模型走向「成片化」的关键时刻，类似此前Seedance 2.0对视频生成的意义。对于短剧、有声书、播客等内容创作者，这代表了单人即可完成全配音工作的生产力变革。原文 ↗原文 ↗

核心观点

▍豆包音频生成1.0的核心升级不是让AI声音更像人，而是实现了「影视级全要素直出」——一段提示词即可一次性生成包含多角色对话、环境音、特效声、BGM的完整声景，无需后期拼接，这标志着语音模型从「配音工具」进化为「声音导演」。
▍作者将Seed-Audio 1.0类比为Seedance 2.0时刻：后者让视频生成走向成片化，前者让语音模型走到了同一位置，意味着单人即可替代一整支配音团队。

01作者用1.0生成了打工人续集（1分10秒），延续2.0版本的音色，包含设计师与甲方对话、甲方被吵醒的睡意、电话忙音和三秒死寂，全段一次生成，无后期处理。
02用一段三人漫剧剧本测试：包含旁白（低沉国风腔）、长老（苍老沙哑带轻蔑）、少年（清亮带怒气）三个角色，以及古筝、大鼓、弦乐、脚步摩擦、灵剑出鞘、金属打击、人群哄笑、钟鸣等音效，全部通过一段提示词生成。
03以佛得角门将世界杯解说为案例，测试了赛事直播场景，要求包含观众吼叫、球场回声、解说员情绪随赛事节奏变化（压住、加速、爆发、回落），最终效果像真实转播。
04与去年的《冰雪奇缘》恶搞对比，1.0版本补上了当年2.0无法完成的「大招」场景——人声、背景音、特效声一把梭哈，冰晶炸开碎裂的音效与电影原片几乎无差别。
05诗句测试（《将进酒》），要求年长男性、浑厚岁月感、有情绪起伏变化，且长程（2分钟以上）音色和语气保持一致性，优于传统AI语音的长时漂移问题。
06四川方言案例：成都老街傍晚饭点场景，包含老婆婆招呼客人、孙娃子乱跑、叫卖声、油锅滋啦声，单次生成。
07作者指出关键细节：2.0版本中多人对话有割裂感（像不在同一空间），1.0版本中所有人声被放进了同一个空间里，这是成片级的体验升级。
08模型支持参考音频生成，可上传一段音频作为参考保持音色一致性后继续延展生成。

反方 / 局限

— 文章本质上是亲历者体验报告和产品发布软文，没有提及模型的任何局限、失败案例、算力成本、商业定价或与竞品（如OpenAI的Voice Engine、ElevenLabs）的对比。
— 关于「提示词工程」的表述过于简略，实际创作过程中如何精确描述「谁在说、什么情绪、什么场景」以稳定生成理想结果，可能仍需要大量经验调校，文章未涉及这一痛点。

火山引擎豆包音频生成模型 Seed-Audio 1.0 Seedance 2.0 佛得角将进酒冰雪奇缘

8 分钟 · 4 卡片 · 11 资料

读原文 →

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

前置背景

平行视角

未来推演

延伸追问