6.9
深览指数
科技微博·机器之心Pro··AI 生成

经典之作PPO算法:曾被NeurIPS拒了

PPO算法作者John Schulman近日提及,该经典算法于2017年曾被NIPS拒稿,理由是创新性有限且相对基线提升不显著。文章指出,PPO的真正影响力并非源于其在外观上的新颖性,而是因其在包括大语言模型后训练在内的复杂系统中的强适用性与可扩展性,这种“简单但可规模化”的算法最终在产业应用中产生了远超学术界预期的深远影响。事件揭示了学术评审体系对新颖性的偏好与真实产业对可规模化稳定方法的需求之间存在结构性错位。原文 ↗

核心观点
  • PPO算法在2017年被NIPS拒稿,核心原因在于当时被认为创新性有限,但它在产业界(尤其是大模型训练)的巨大影响力超出了学术界最初的预期,揭示了学术评价体系与产业需求之间的错位。
  1. 01PPO作者John Schulman本人近期在社交媒体上提及,PPO曾被NIPS 2017拒稿。
  2. 02PPO最初在2017年7月发布,旨在简化TRPO算法,提高策略优化算法的实用性和工程友好度。
  3. 03PPO的巨大影响力并非来自Atari、机器人等传统强化学习任务,而是其在RLHF和RLVR等大语言模型后训练流程中的核心应用。
  4. 04有评论指出,学术界更看重新颖性和基准提升,而产业界更看重方法的可扩展性与系统稳定性。
  5. 05类似案例包括:LSTM(1996年被NIPS拒)、SIFT(被ICCV/CVPR拒)、Dropout(2012年被NIPS拒)。
反方 / 局限
  • 文章未提及PPO自身的局限性(如样本效率、超参数敏感度)或被其他算法替代的可能性,也未深入探讨学术评审中可能存在的信息不对称或随机性。
3 分钟 · 4 卡片 · 10 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问