Qwen-AgentWorld 开源: 面向通用智能体的语言世界模型

6.9

深览指数

科技Bestblogs·魔搭ModelScope社区·昨天 18:00·AI 生成

Qwen-AgentWorld 开源: 面向通用智能体的语言世界模型

Qwen 团队开源了 Qwen-AgentWorld，一个原生语言世界模型，试图将环境模拟从工程问题转化为模型问题。该模型通过三阶段训练，能模拟搜索、终端、网页等七大 Agent 环境，并在自建基准上超越 GPT-5.4。文章重点展示了两种训练范式：Sim RL（用模型做模拟器训练 Agent）和 Agent 基础模型（提供世界模型先验），均带来显著效果提升，甚至纯模拟训练的效果超越了真实环境。适合关注大模型 Agent 训练范式、希望降低环境模拟成本的研究者和工程师阅读。原文 ↗原文 ↗

核心观点

▍Qwen-AgentWorld 将环境模拟从工程问题转化为模型问题：通过三阶段训练让语言模型直接预测环境反馈，替代传统 Sandbox，降低 Agent 训练成本与不稳定性。
▍纯模拟训练（Sim RL）在搜索任务上效果超越了真实环境训练，揭示了世界模型作为模拟器的潜力。

01模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域，能以语言形式生成高保真环境反馈。
02旗舰版 397B 在自建 AgentWorldBench 上取得 58.71 分，超过 GPT-5.4（58.25）和 Claude Sonnet 4.6（56.04）。
03轻量版 35B-A3B 在 AgentWorldBench 得 56.39 分，高于 Claude Sonnet 4.6 的 56.04 分。
04在 WideSearch 任务上，使用 Qwen-AgentWorld 作为模拟器训练得到的 Agent 拿到 50.3% F1 Item，高于真实环境 RL 的 45.6%。
05作为 Agent 基础模型，在下游任务如 SWE-Bench、WideSearch、Claw-Eval 上获得两位数提升，涵盖 OOD 场景。
06模型自发涌现了自我纠错、信息泄漏防护、多步因果推理等推理行为。

反方 / 局限

— 文章未披露相比传统 Sandbox，模型生成的环境反馈在哪些场景下可能存在幻觉或不稳定，也未讨论生成式模拟对 Agent 安全对齐的潜在风险。
— 所有评测在自建基准上进行，缺乏第三方独立验证，可能高估模型表现。

Qwen-AgentWorld 语言世界模型 (LWM)Sim RL Agent 基础模型 Qwen 团队 GPT-5.4 Claude Sonnet 4.6 AgentWorldBench MCP SWE-Bench WideSearch Claw-Eval SGLang vLLM Transformers

4 分钟 · 5 卡片 · 12 资料

读原文 →

Qwen-AgentWorld 开源: 面向通用智能体的语言世界模型

前置背景

技术原理

平行视角

未来推演

延伸追问