6.9
深览指数
科技Bestblogs·魔搭ModelScope社区··AI 生成

Qwen-AgentWorld 开源: 面向通用智能体的语言世界模型

Qwen 团队开源了 Qwen-AgentWorld,一个原生语言世界模型,试图将环境模拟从工程问题转化为模型问题。该模型通过三阶段训练,能模拟搜索、终端、网页等七大 Agent 环境,并在自建基准上超越 GPT-5.4。文章重点展示了两种训练范式:Sim RL(用模型做模拟器训练 Agent)和 Agent 基础模型(提供世界模型先验),均带来显著效果提升,甚至纯模拟训练的效果超越了真实环境。适合关注大模型 Agent 训练范式、希望降低环境模拟成本的研究者和工程师阅读。原文 ↗

核心观点
  • Qwen-AgentWorld 将环境模拟从工程问题转化为模型问题:通过三阶段训练让语言模型直接预测环境反馈,替代传统 Sandbox,降低 Agent 训练成本与不稳定性。
  • 纯模拟训练(Sim RL)在搜索任务上效果超越了真实环境训练,揭示了世界模型作为模拟器的潜力。
  1. 01模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域,能以语言形式生成高保真环境反馈。
  2. 02旗舰版 397B 在自建 AgentWorldBench 上取得 58.71 分,超过 GPT-5.4(58.25)和 Claude Sonnet 4.6(56.04)。
  3. 03轻量版 35B-A3B 在 AgentWorldBench 得 56.39 分,高于 Claude Sonnet 4.6 的 56.04 分。
  4. 04在 WideSearch 任务上,使用 Qwen-AgentWorld 作为模拟器训练得到的 Agent 拿到 50.3% F1 Item,高于真实环境 RL 的 45.6%。
  5. 05作为 Agent 基础模型,在下游任务如 SWE-Bench、WideSearch、Claw-Eval 上获得两位数提升,涵盖 OOD 场景。
  6. 06模型自发涌现了自我纠错、信息泄漏防护、多步因果推理等推理行为。
反方 / 局限
  • 文章未披露相比传统 Sandbox,模型生成的环境反馈在哪些场景下可能存在幻觉或不稳定,也未讨论生成式模拟对 Agent 安全对齐的潜在风险。
  • 所有评测在自建基准上进行,缺乏第三方独立验证,可能高估模型表现。
4 分钟 · 5 卡片 · 12 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问