7.3
深览指数
科技Bestblogs·罗西的思考··AI 生成

SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架(3)算法篇(RLPD)

本文是 SERL 系列第三篇,从工程实现角度拆解 RLPD 算法的三大支柱:High UTD(每步交互更新 20 次)、Layer Normalization 和 50/50 混合采样。作者结合代码片段和流程图,解释了这些机制如何协同作用,让真机强化学习在 20 分钟内学会精密操作,并覆盖了 BC 预训练和过拟合防护的工程细节。适合具备强化学习基础、关注机器人操作落地的读者。原文 ↗

核心观点
  • RLPD 通过 High UTD 将每条真机样本反复利用,大幅提升样本效率。SERL 每采集一条环境数据就进行 20 次梯度更新,在 20 分钟内收敛到高精度操作。
  • 50/50 混合采样解决了机器人强化学习的冷启动问题。每个训练 Batch 强制混合 50% 演示数据与 50% 在线数据,防止训练初期因盲目探索而撞坏硬件。
  1. 01High UTD 的核心机制是每步环境交互后执行 20 次 Critic 和 Actor 更新,迫使模型在有限物理交互中深度研读数据。
  2. 02Layer Normalization 被加在 Critic 网络的每个隐藏层之后,用于吸收高频更新带来的梯度冲击,避免 Q 值发散,是支撑 High UTD 的关键正则化技术。
  3. 0350/50 混合采样策略:每个训练 Batch 中强制混合 50% 来自演示数据的 Demo 样本与 50% 来自在线交互的 Online 样本,让智能体始终看到正确路标。
  4. 04BC 预训练阶段使用 BCAgent 架构,通过行为克隆从少量演示数据中学习初始动作分布,极大降低 RL 微调阶段的搜索空间和硬件风险。
  5. 05SERL 使用了多重稳定机制对抗过拟合:Critic Ensemble(集成 4 个 Critic)、Soft Update(目标网络慢更新)、REDQ(随机集成 Q 学习)和 DrQ(数据增强)。
  6. 06视觉编码器从 ResNet-18(原始 RLPD)更换为更小的 Impala 网络,在不损失性能的前提下减少了参数量和训练时间,更适应真机部署。
  7. 07RLPD 采用 EMA(指数移动平均)更新 Actor,替代 SAC 原始的梯度上升方式,增加策略更新的平滑性。
反方 / 局限
  • High UTD 本身带来了严重的过拟合风险。SERL 虽然使用了多种机制防护,但文中并未讨论这些防护在不同任务上的适用性边界(比如是否需要根据任务动态调整 UTD 比率)。
3 分钟 · 4 卡片 · 10 资料
读原文 →

前置背景

技术原理

平行视角

延伸追问