GRPO过时了吗？

7.5

深览指数

科技腾讯新闻·机器之心·2小时前·AI 生成

GRPO过时了吗？

智谱在发布GLM-5.2时，技术博客披露其在长程强化学习阶段放弃了主流开源范式GRPO，回归使用基于价值网络(critic)的PPO。文章详细解析了切换的技术原因：在长程智能体任务中，GRPO依赖的组内比较前提（均匀的轨迹长度）不再成立，而token级别的critic估值能更好地处理长短不一的子轨迹。本文通过工业实践（GLM-5.2）与学术实验（《Learning Without Critics?》）两条独立线索，论证了强化学习算法选择正变得“任务相关”——短程可验证任务GRPO仍高效，但长程多轮任务使价值网络重新重要。适合关注AI训练架构演进、后训练强化学习路线分歧的技术从业者和研究者阅读。原文 ↗原文 ↗

核心观点

▍强化学习算法的选择正变得任务相关：短程可验证任务（数学题、单元测试）GRPO依然高效便宜，但长程智能体任务（多轮工具调用、奖励稀疏延迟）使基于价值网络(critic)的PPO重新重要。
▍GLM-5.2在长程强化学习阶段放弃GRPO转向基于critic的PPO，因为长程任务轨迹经压缩后长短不一，GRPO无法找到条件相同的样本进行组内比较来估计优势值。

01GLM-5.2是一个744B参数、激活40B的MoE模型，遵循MIT协议完全开源，支持真正可用的1M token上下文，在长程任务基准FrontierSWE上拿到74.4%，逼近Claude Opus 4.8的75.1%。
02开发者@hallerite和@ethayarajh等指出，群体内比较降低方差的方法在长程任务中行不通，OpenAI和Anthropic可能早就在使用价值网络，PPO路线更贴近“苦涩的教训”能随计算量扩展。
03智谱的技术博客披露，长程任务轨迹压缩后子轨迹长度参差不齐，GRPO硬上组内比较导致大量数据无法使用；解法是重新训练一个能给任意一段轨迹独立估值的critic网络，采用token级别的优势值。
04学术界论文《Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments》测试显示，在没有提前终止机制的长程任务里，不带critic的方法持续逊于带价值函数的PPO。
05DeepSeek V4技术报告显示，在训练数学、代码、Agent等分领域专家模型时依然使用GRPO，只是在合并统一模型时换用“在策略蒸馏”。说明提出者自己也没放弃GRPO在短任务上的适用性。

反方 / 局限

— 文章指出，GSPO、DAPO、Dr.GRPO、GMPO等变体仍在学术界持续涌现，试图打磨GRPO在效率和稳定性上的问题，并未完全否定GRPO路线。
— 文章未深入讨论从GRPO切回基于critic的PPO后，额外训练价值网络增加的显存消耗和训练不稳定性是否值得，以及GLM-5.2引入的“假信息”拦截机制对奖励信号正确性的潜在影响。

GRPOGLM-5.2智谱DeepSeekPPO价值网络 (critic)FrontierSWE基准MIT协议MoE (混合专家模型)Claude OpusGPT-5.5DeepSeekMathDeepSeek-R1《Learning Without Critics?》论文

11 分钟 · 4 卡片 · 7 资料

读原文 →

GRPO过时了吗？

前置背景

平行视角

未来推演

延伸追问