6.9
深览指数
产品腾讯新闻·夕小瑶科技说··AI 生成

实测豆包音频生成模型:语音模型的Seedance2.0时刻来了!

火山引擎发布豆包音频生成模型1.0(Seed-Audio 1.0),从语音合成升级为全要素直出的音频生成。实测显示,该模型不仅能生成极度逼真的人类声音,还能在同一段音频中一次性输出多角色对话、环境音、特效声、BGM等影视级完整声景,无需后期拼接。作者通过打工人续集、漫剧配音、世界杯解说、诗句朗读、四川方言等案例,论证了该模型已接近成片级交付水准,并认为这是语音模型走向「成片化」的关键时刻,类似此前Seedance 2.0对视频生成的意义。对于短剧、有声书、播客等内容创作者,这代表了单人即可完成全配音工作的生产力变革。原文 ↗

核心观点
  • 豆包音频生成1.0的核心升级不是让AI声音更像人,而是实现了「影视级全要素直出」——一段提示词即可一次性生成包含多角色对话、环境音、特效声、BGM的完整声景,无需后期拼接,这标志着语音模型从「配音工具」进化为「声音导演」。
  • 作者将Seed-Audio 1.0类比为Seedance 2.0时刻:后者让视频生成走向成片化,前者让语音模型走到了同一位置,意味着单人即可替代一整支配音团队。
  1. 01作者用1.0生成了打工人续集(1分10秒),延续2.0版本的音色,包含设计师与甲方对话、甲方被吵醒的睡意、电话忙音和三秒死寂,全段一次生成,无后期处理。
  2. 02用一段三人漫剧剧本测试:包含旁白(低沉国风腔)、长老(苍老沙哑带轻蔑)、少年(清亮带怒气)三个角色,以及古筝、大鼓、弦乐、脚步摩擦、灵剑出鞘、金属打击、人群哄笑、钟鸣等音效,全部通过一段提示词生成。
  3. 03以佛得角门将世界杯解说为案例,测试了赛事直播场景,要求包含观众吼叫、球场回声、解说员情绪随赛事节奏变化(压住、加速、爆发、回落),最终效果像真实转播。
  4. 04与去年的《冰雪奇缘》恶搞对比,1.0版本补上了当年2.0无法完成的「大招」场景——人声、背景音、特效声一把梭哈,冰晶炸开碎裂的音效与电影原片几乎无差别。
  5. 05诗句测试(《将进酒》),要求年长男性、浑厚岁月感、有情绪起伏变化,且长程(2分钟以上)音色和语气保持一致性,优于传统AI语音的长时漂移问题。
  6. 06四川方言案例:成都老街傍晚饭点场景,包含老婆婆招呼客人、孙娃子乱跑、叫卖声、油锅滋啦声,单次生成。
  7. 07作者指出关键细节:2.0版本中多人对话有割裂感(像不在同一空间),1.0版本中所有人声被放进了同一个空间里,这是成片级的体验升级。
  8. 08模型支持参考音频生成,可上传一段音频作为参考保持音色一致性后继续延展生成。
反方 / 局限
  • 文章本质上是亲历者体验报告和产品发布软文,没有提及模型的任何局限、失败案例、算力成本、商业定价或与竞品(如OpenAI的Voice Engine、ElevenLabs)的对比。
  • 关于「提示词工程」的表述过于简略,实际创作过程中如何精确描述「谁在说、什么情绪、什么场景」以稳定生成理想结果,可能仍需要大量经验调校,文章未涉及这一痛点。
8 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问