让Agent越用越强：AReaL 2.0开源，打造面向自演进智能体的RL基础设施

6.1

深览指数

科技量子位·4小时前·AI 生成

让Agent越用越强：AReaL 2.0开源，打造面向自演进智能体的RL基础设施

蚂蚁集团、清华大学和香港科技大学团队联合发布 AReaL 2.0，这是一套面向已上线 Agent 的在线强化学习基础设施。核心创新在于让 Agent 在执行真实任务时产生的交互轨迹（对话、工具调用、结果反馈），能脱敏并接入持续训练流程，从而在安全边界内实现自演进。文章强调了从“会使用工具”到“能从使用中学习”的范式转变，并指出工程落地（而非算法先进性）是当前关键瓶颈。适合关注 AI 基础设施、Agent 工程落地、强化学习实操的读者。原文 ↗原文 ↗

核心观点

▍AReaL 2.0 的核心贡献并非强化学习算法本身，而是提供了连接真实 Agent 服务与在线训练流程的工程基础设施，解决了上线 Agent 在真实环境中持续学习的系统性问题。
▍自演进智能体的关键瓶颈在于缺乏一套能服务真实 Agent 的在线强化学习基础设施，而非模型强度或算法先进性。

01AReaL 2.0 通过统一推理入口（开发者无需重新开发 Agent），将 Agent 原本发给大模型的请求接入在线强化学习流程，记录关键交互轨迹并用于后续训练。
02以 Hermes Agent 为例，AReaL 2.0 在后台记录其完成任务时的关键交互过程，并结合任务结束后的反馈或奖励信号，将真实轨迹用于训练。
03系统引入了面向 Agent 轨迹的数据代理机制，以处理真实业务中代码、客户信息、企业知识库等敏感数据，实现权限控制、数据脱敏、隔离和审计。
04AReaL 项目于 2024 年由蚂蚁集团、清华大学和香港科技大学发起，2026 年 5 月从蚂蚁 InclusionAI 孵化成为独立开源社区，并加入 PyTorch Foundation Ecosystem 项目。
05AReaL 社区已获得华为云团队、MindLab 等产业和开源生态伙伴的参与和支持。

反方 / 局限

— 文章未提及 AReaL 2.0 在处理真实任务时，奖励信号（feedback/reward signal）的获取与设计在复杂业务场景中是否引入高昂的人工标注成本，也未讨论在线持续学习可能导致的模型灾难性遗忘问题。

AReaL AReaL 2.0 Hermes Agent 蚂蚁集团清华大学香港科技大学 PyTorch Foundation 华为云 MindLab InclusionAI

5 分钟 · 3 卡片 · 7 资料

读原文 →

让Agent越用越强：AReaL 2.0开源，打造面向自演进智能体的RL基础设施

前置背景

平行视角

延伸追问