开源！阿里甩出首个语言世界模型，能造智能体环境

6.4

深览指数

科技智东西·3小时前·AI 生成

开源！阿里甩出首个语言世界模型，能造智能体环境

阿里千问大模型发布首个原生语言世界模型（LWM）Qwen-AgentWorld，该模型能将环境建模贯穿CPT→SFT→RL全训练流程，单一模型覆盖MCP、Search、Web、OS等7类交互环境。其核心价值并非替代真实环境，而是提供一条可扩展、可控的互补路径：让智能体在内部模拟环境反馈后再做决策。在35B-A3B规模上，三阶段训练将整体评分提升8.66分，整体模拟质量在AgentWorldBench上超越GPT-5.4与Claude Opus 4.8。适合对AI智能体、多模态交互环境、前沿模型训练范式感兴趣的研发者与架构师阅读。原文 ↗原文 ↗

核心观点

▍Qwen-AgentWorld的核心目的不是降成本或替代真实交互环境，而是通过语言世界模型为通用智能体提供一条互补路径，使其能在做动作前于内部模拟环境反馈再决策。
▍语言世界模型（LWM）的预训练可有效迁移至涵盖七个基准的多轮智能体任务，初步验证了语言世界模型可作为构建更强智能体模型的基础。

01该模型从预训练阶段就将环境建模作为训练目标，贯穿CPT→SFT→RL全流程，这与以往训练完基础大模型后才教AI理解环境的方法不同。
02单一模型同时覆盖7类环境：文本类（MCP、Search、Terminal、SWE）与GUI类（Web、OS、Android），可实现跨领域知识迁移。
03在AgentWorldBench评测中，Qwen-AgentWorld-397B-A17B整体均分（58.71）超越GPT-5.4（58.25）、Claude Opus 4.8与Gemini 3.1 Pro。
04在35B-A3B规模上，三阶段训练流水线将整体均分提升8.66分，使Qwen-AgentWorld-35B-A3B表现超过Claude Sonnet 4.6。
05模型基于超过1000万条真实环境交互轨迹训练，三个GUI领域的环境观测以可渲染代码（无障碍树XML、HTML、UI层级标记）而非像素帧呈现。
06在129条思维链中涌现3种推理模式：自我修正（平均每轮10.4次）、信息泄漏防护以及多步因果推理（如预测curl输出需要6步推理链）。

反方 / 局限

— 研究人员明确表示LWM并非用来取代真实环境交互，真实环境交互始终是确保智能体行为可靠性的黄金标准，LWM仅提供一条互补路径。
— 文章未提及该模型在真实复杂动态环境中的泛化表现，也未说明超过1000万条轨迹的数据质量与覆盖偏差，对长尾环境与异常场景的模拟效果尚不明确。

阿里千问大模型 Qwen-AgentWorld AgentWorldBench 语言世界模型（LWM）CPT→SFT→RL训练流程 GPT-5.4 Claude Opus 4.8 Gemini 3.1 Pro GitHub开源地址 ModelScope开源地址 Hugging Face

11 分钟 · 6 卡片 · 11 资料

读原文 →

开源！阿里甩出首个语言世界模型，能造智能体环境

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问