产品腾讯新闻·王建硕··AI 生成
跑了 9 轮、两个多小时,还没完全解决
本文作者介绍了他开发的口述转文章工具 VoiceDrop 的核心技术——风格蒸馏与对抗测试。作者认为,音频转文字很容易,真正的难点在于从口述内容中还原个人写作风格,为此他设计了一种类似 GAN 的对抗测试方法来验证风格文档的准确性:让判官模型从伪造和真实文章中辨别真伪,目标是判官准确率低于50%且不低于20%。文章同时坦诚了当前方法的局限,即判官更多识别「像不像AI写」而非「像不像作者写」。适合对AI写作工具、个人知识管理、内容创作工具设计感兴趣的读者。原文 ↗原文 ↗
核心观点
- ▍口述转文章的核心并非音频转文字,而是从口述内容中蒸馏出个人写作风格,使生成的文章符合原作者的语气和节奏。
- ▍作者提出了一种对抗测试方法(类似GAN)来验证风格文档是否准确:通过判官模型在伪造和真实文章中分辨真伪,判官准确率应控制在35-50%区间。
- 01音频转文字是现成技术,很多软件都能做,因此不是VoiceDrop的价值所在。
- 02对抗测试每轮用风格文档伪造6篇文章,与6篇真实文章混合,交给跨公司模型(如Kimi或GPT)判真伪。
- 03判官的准确率低于50%才有效,但低于20%说明风格文档把真实风格磨平了,导致真迹也被误判。
- 04作者将风格蒸馏的skill开源,可通过Claude Code或Codex安装使用。
反方 / 局限
- — 判官很多时候判的不是「像不像我的风格」,而是「像不像AI写的」,两件事有差距,这是当前方法的核心盲点。
- — 一篇文章可以不像AI但也不像作者本人,或者因选题与真迹相似而蒙混过关——这些情况当前对抗测试并未覆盖。
VoiceDropTestFlightClaude CodeCodexKimiGPTGAN(生成对抗网络)GitHub
前置背景
平行视角
未来推演
延伸追问