6.1
深览指数
科技量子位··AI 生成

让Agent越用越强:AReaL 2.0开源,打造面向自演进智能体的RL基础设施

蚂蚁集团、清华大学和香港科技大学团队联合发布 AReaL 2.0,这是一套面向已上线 Agent 的在线强化学习基础设施。核心创新在于让 Agent 在执行真实任务时产生的交互轨迹(对话、工具调用、结果反馈),能脱敏并接入持续训练流程,从而在安全边界内实现自演进。文章强调了从“会使用工具”到“能从使用中学习”的范式转变,并指出工程落地(而非算法先进性)是当前关键瓶颈。适合关注 AI 基础设施、Agent 工程落地、强化学习实操的读者。原文 ↗

核心观点
  • AReaL 2.0 的核心贡献并非强化学习算法本身,而是提供了连接真实 Agent 服务与在线训练流程的工程基础设施,解决了上线 Agent 在真实环境中持续学习的系统性问题。
  • 自演进智能体的关键瓶颈在于缺乏一套能服务真实 Agent 的在线强化学习基础设施,而非模型强度或算法先进性。
  1. 01AReaL 2.0 通过统一推理入口(开发者无需重新开发 Agent),将 Agent 原本发给大模型的请求接入在线强化学习流程,记录关键交互轨迹并用于后续训练。
  2. 02以 Hermes Agent 为例,AReaL 2.0 在后台记录其完成任务时的关键交互过程,并结合任务结束后的反馈或奖励信号,将真实轨迹用于训练。
  3. 03系统引入了面向 Agent 轨迹的数据代理机制,以处理真实业务中代码、客户信息、企业知识库等敏感数据,实现权限控制、数据脱敏、隔离和审计。
  4. 04AReaL 项目于 2024 年由蚂蚁集团、清华大学和香港科技大学发起,2026 年 5 月从蚂蚁 InclusionAI 孵化成为独立开源社区,并加入 PyTorch Foundation Ecosystem 项目。
  5. 05AReaL 社区已获得华为云团队、MindLab 等产业和开源生态伙伴的参与和支持。
反方 / 局限
  • 文章未提及 AReaL 2.0 在处理真实任务时,奖励信号(feedback/reward signal)的获取与设计在复杂业务场景中是否引入高昂的人工标注成本,也未讨论在线持续学习可能导致的模型灾难性遗忘问题。
5 分钟 · 3 卡片 · 7 资料
读原文 →

前置背景

平行视角

延伸追问