7.5
深览指数
科技腾讯新闻·机器之心··AI 生成
GRPO过时了吗?
智谱在发布GLM-5.2时,技术博客披露其在长程强化学习阶段放弃了主流开源范式GRPO,回归使用基于价值网络(critic)的PPO。文章详细解析了切换的技术原因:在长程智能体任务中,GRPO依赖的组内比较前提(均匀的轨迹长度)不再成立,而token级别的critic估值能更好地处理长短不一的子轨迹。本文通过工业实践(GLM-5.2)与学术实验(《Learning Without Critics?》)两条独立线索,论证了强化学习算法选择正变得“任务相关”——短程可验证任务GRPO仍高效,但长程多轮任务使价值网络重新重要。适合关注AI训练架构演进、后训练强化学习路线分歧的技术从业者和研究者阅读。原文 ↗
核心观点
- ▍强化学习算法的选择正变得任务相关:短程可验证任务(数学题、单元测试)GRPO依然高效便宜,但长程智能体任务(多轮工具调用、奖励稀疏延迟)使基于价值网络(critic)的PPO重新重要。
- ▍GLM-5.2在长程强化学习阶段放弃GRPO转向基于critic的PPO,因为长程任务轨迹经压缩后长短不一,GRPO无法找到条件相同的样本进行组内比较来估计优势值。
- 01GLM-5.2是一个744B参数、激活40B的MoE模型,遵循MIT协议完全开源,支持真正可用的1M token上下文,在长程任务基准FrontierSWE上拿到74.4%,逼近Claude Opus 4.8的75.1%。
- 02开发者@hallerite和@ethayarajh等指出,群体内比较降低方差的方法在长程任务中行不通,OpenAI和Anthropic可能早就在使用价值网络,PPO路线更贴近“苦涩的教训”能随计算量扩展。
- 03智谱的技术博客披露,长程任务轨迹压缩后子轨迹长度参差不齐,GRPO硬上组内比较导致大量数据无法使用;解法是重新训练一个能给任意一段轨迹独立估值的critic网络,采用token级别的优势值。
- 04学术界论文《Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments》测试显示,在没有提前终止机制的长程任务里,不带critic的方法持续逊于带价值函数的PPO。
- 05DeepSeek V4技术报告显示,在训练数学、代码、Agent等分领域专家模型时依然使用GRPO,只是在合并统一模型时换用“在策略蒸馏”。说明提出者自己也没放弃GRPO在短任务上的适用性。
反方 / 局限
- — 文章指出,GSPO、DAPO、Dr.GRPO、GMPO等变体仍在学术界持续涌现,试图打磨GRPO在效率和稳定性上的问题,并未完全否定GRPO路线。
- — 文章未深入讨论从GRPO切回基于critic的PPO后,额外训练价值网络增加的显存消耗和训练不稳定性是否值得,以及GLM-5.2引入的“假信息”拦截机制对奖励信号正确性的潜在影响。
GRPOGLM-5.2智谱DeepSeekPPO价值网络 (critic)FrontierSWE基准MIT协议MoE (混合专家模型)Claude OpusGPT-5.5DeepSeekMathDeepSeek-R1《Learning Without Critics?》论文
11 分钟 · 4 卡片 · 7 资料
读原文 →