6.0
深览指数
科技腾讯新闻··AI 生成

OpenAI新论文:训练AI就像育娃,最终还是看人品

OpenAI 在一篇新论文中发现,通过强化学习训练 AI 的诚实、谦逊、可纠正等「有益特质」,其效果不仅限于训练领域,会自动泛化到未训练领域(如欺骗、谄媚等行为评估中表现更好),且模型更难被恶意提示或微调带坏。文章将这一发现类比为「人的底色塑造」,认为底层的倾向比单次表现更重要。适合关注 AI 对齐、强化学习技术原理及 AI 安全趋势的读者阅读。原文 ↗

核心观点
  • 在 AI 强化学习中训练诚实、谦逊等「有益特质」,效果会自动泛化到未训练领域,且模型更难被对抗性提示词或微调带坏。
  • 文章将这一现象类比为人的「底色塑造」:底层倾向比单次表现更重要,真正的可靠性来自于长期环境与奖惩机制塑造的持续偏好。
  1. 01OpenAI 选用了诚实、认知谦逊、元认知透明度、可纠正性、普遍公平性五个特质进行实验,数据覆盖健康、教育、科学、法律、工程等领域。
  2. 02在 53 项独立评测中,44 项显示训练有益特质的模型优于基线模型,在欺骗、谄媚、奖励操纵等维度上表现更好。
  3. 03只在健康领域训练有益行为,模型也能将这种倾向泛化到非健康领域;即使从训练数据中去掉健康和科学样本,模型仍在健康相关评测中表现更好。
  4. 04经过有益特质训练的模型更难被对抗性提示词或有害微调引向有害行为,论文将此称为「选择性持久」——好方向上可引导,坏方向上更难偏转。
反方 / 局限
  • 论文本身是 OpenAI 的初步探索成果,未对有益特质训练的长期稳定性、大面积泛化能力、可能产生的意外副作用(如过度规避风险导致模型过度保守)进行深入探讨,作者也承认「目前只是初步有效」。
OpenAI强化学习AI 对齐涌现失调选择性持久对抗性提示词微调(fine-tuning)有益特质
6 分钟 · 4 卡片 · 8 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问