跑了 9 轮、两个多小时，还没完全解决

7.7

深览指数

产品腾讯新闻·王建硕·昨天 17:32·AI 生成

跑了 9 轮、两个多小时，还没完全解决

本文作者介绍了他开发的口述转文章工具 VoiceDrop 的核心技术——风格蒸馏与对抗测试。作者认为，音频转文字很容易，真正的难点在于从口述内容中还原个人写作风格，为此他设计了一种类似 GAN 的对抗测试方法来验证风格文档的准确性：让判官模型从伪造和真实文章中辨别真伪，目标是判官准确率低于50%且不低于20%。文章同时坦诚了当前方法的局限，即判官更多识别「像不像AI写」而非「像不像作者写」。适合对AI写作工具、个人知识管理、内容创作工具设计感兴趣的读者。原文 ↗原文 ↗

核心观点

▍口述转文章的核心并非音频转文字，而是从口述内容中蒸馏出个人写作风格，使生成的文章符合原作者的语气和节奏。
▍作者提出了一种对抗测试方法（类似GAN）来验证风格文档是否准确：通过判官模型在伪造和真实文章中分辨真伪，判官准确率应控制在35-50%区间。

01音频转文字是现成技术，很多软件都能做，因此不是VoiceDrop的价值所在。
02对抗测试每轮用风格文档伪造6篇文章，与6篇真实文章混合，交给跨公司模型（如Kimi或GPT）判真伪。
03判官的准确率低于50%才有效，但低于20%说明风格文档把真实风格磨平了，导致真迹也被误判。
04作者将风格蒸馏的skill开源，可通过Claude Code或Codex安装使用。

反方 / 局限

— 判官很多时候判的不是「像不像我的风格」，而是「像不像AI写的」，两件事有差距，这是当前方法的核心盲点。
— 一篇文章可以不像AI但也不像作者本人，或者因选题与真迹相似而蒙混过关——这些情况当前对抗测试并未覆盖。

VoiceDropTestFlightClaude CodeCodexKimiGPTGAN（生成对抗网络）GitHub

4 分钟 · 4 卡片 · 8 资料

读原文 →

跑了 9 轮、两个多小时，还没完全解决

前置背景

平行视角

未来推演

延伸追问