7.7
深览指数
产品腾讯新闻·王建硕··AI 生成

跑了 9 轮、两个多小时,还没完全解决

本文作者介绍了他开发的口述转文章工具 VoiceDrop 的核心技术——风格蒸馏与对抗测试。作者认为,音频转文字很容易,真正的难点在于从口述内容中还原个人写作风格,为此他设计了一种类似 GAN 的对抗测试方法来验证风格文档的准确性:让判官模型从伪造和真实文章中辨别真伪,目标是判官准确率低于50%且不低于20%。文章同时坦诚了当前方法的局限,即判官更多识别「像不像AI写」而非「像不像作者写」。适合对AI写作工具、个人知识管理、内容创作工具设计感兴趣的读者。原文 ↗

核心观点
  • 口述转文章的核心并非音频转文字,而是从口述内容中蒸馏出个人写作风格,使生成的文章符合原作者的语气和节奏。
  • 作者提出了一种对抗测试方法(类似GAN)来验证风格文档是否准确:通过判官模型在伪造和真实文章中分辨真伪,判官准确率应控制在35-50%区间。
  1. 01音频转文字是现成技术,很多软件都能做,因此不是VoiceDrop的价值所在。
  2. 02对抗测试每轮用风格文档伪造6篇文章,与6篇真实文章混合,交给跨公司模型(如Kimi或GPT)判真伪。
  3. 03判官的准确率低于50%才有效,但低于20%说明风格文档把真实风格磨平了,导致真迹也被误判。
  4. 04作者将风格蒸馏的skill开源,可通过Claude Code或Codex安装使用。
反方 / 局限
  • 判官很多时候判的不是「像不像我的风格」,而是「像不像AI写的」,两件事有差距,这是当前方法的核心盲点。
  • 一篇文章可以不像AI但也不像作者本人,或者因选题与真迹相似而蒙混过关——这些情况当前对抗测试并未覆盖。
VoiceDropTestFlightClaude CodeCodexKimiGPTGAN(生成对抗网络)GitHub
4 分钟 · 4 卡片 · 8 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问