SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（3）算法篇（RLPD）

7.3

深览指数

科技Bestblogs·罗西的思考·昨天 20:13·AI 生成

SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（3）算法篇（RLPD）

本文是 SERL 系列第三篇，从工程实现角度拆解 RLPD 算法的三大支柱：High UTD（每步交互更新 20 次）、Layer Normalization 和 50/50 混合采样。作者结合代码片段和流程图，解释了这些机制如何协同作用，让真机强化学习在 20 分钟内学会精密操作，并覆盖了 BC 预训练和过拟合防护的工程细节。适合具备强化学习基础、关注机器人操作落地的读者。原文 ↗原文 ↗

核心观点

▍RLPD 通过 High UTD 将每条真机样本反复利用，大幅提升样本效率。SERL 每采集一条环境数据就进行 20 次梯度更新，在 20 分钟内收敛到高精度操作。
▍50/50 混合采样解决了机器人强化学习的冷启动问题。每个训练 Batch 强制混合 50% 演示数据与 50% 在线数据，防止训练初期因盲目探索而撞坏硬件。

01High UTD 的核心机制是每步环境交互后执行 20 次 Critic 和 Actor 更新，迫使模型在有限物理交互中深度研读数据。
02Layer Normalization 被加在 Critic 网络的每个隐藏层之后，用于吸收高频更新带来的梯度冲击，避免 Q 值发散，是支撑 High UTD 的关键正则化技术。
0350/50 混合采样策略：每个训练 Batch 中强制混合 50% 来自演示数据的 Demo 样本与 50% 来自在线交互的 Online 样本，让智能体始终看到正确路标。
04BC 预训练阶段使用 BCAgent 架构，通过行为克隆从少量演示数据中学习初始动作分布，极大降低 RL 微调阶段的搜索空间和硬件风险。
05SERL 使用了多重稳定机制对抗过拟合：Critic Ensemble（集成 4 个 Critic）、Soft Update（目标网络慢更新）、REDQ（随机集成 Q 学习）和 DrQ（数据增强）。
06视觉编码器从 ResNet-18（原始 RLPD）更换为更小的 Impala 网络，在不损失性能的前提下减少了参数量和训练时间，更适应真机部署。
07RLPD 采用 EMA（指数移动平均）更新 Actor，替代 SAC 原始的梯度上升方式，增加策略更新的平滑性。

反方 / 局限

— High UTD 本身带来了严重的过拟合风险。SERL 虽然使用了多种机制防护，但文中并未讨论这些防护在不同任务上的适用性边界（比如是否需要根据任务动态调整 UTD 比率）。

SERL RLPD High UTD Layer Normalization 行为克隆 (BC)Critic Ensemble REDQ DrQ Impala 罗西的思考

3 分钟 · 4 卡片 · 10 资料

读原文 →

SERL：让真机强化学习从“难用”走向“可复现”的强化学习框架（3）算法篇（RLPD）

前置背景

技术原理

平行视角

延伸追问