6.4
深览指数
科技智东西··AI 生成

开源!阿里甩出首个语言世界模型,能造智能体环境

阿里千问大模型发布首个原生语言世界模型(LWM)Qwen-AgentWorld,该模型能将环境建模贯穿CPT→SFT→RL全训练流程,单一模型覆盖MCP、Search、Web、OS等7类交互环境。其核心价值并非替代真实环境,而是提供一条可扩展、可控的互补路径:让智能体在内部模拟环境反馈后再做决策。在35B-A3B规模上,三阶段训练将整体评分提升8.66分,整体模拟质量在AgentWorldBench上超越GPT-5.4与Claude Opus 4.8。适合对AI智能体、多模态交互环境、前沿模型训练范式感兴趣的研发者与架构师阅读。原文 ↗

核心观点
  • Qwen-AgentWorld的核心目的不是降成本或替代真实交互环境,而是通过语言世界模型为通用智能体提供一条互补路径,使其能在做动作前于内部模拟环境反馈再决策。
  • 语言世界模型(LWM)的预训练可有效迁移至涵盖七个基准的多轮智能体任务,初步验证了语言世界模型可作为构建更强智能体模型的基础。
  1. 01该模型从预训练阶段就将环境建模作为训练目标,贯穿CPT→SFT→RL全流程,这与以往训练完基础大模型后才教AI理解环境的方法不同。
  2. 02单一模型同时覆盖7类环境:文本类(MCP、Search、Terminal、SWE)与GUI类(Web、OS、Android),可实现跨领域知识迁移。
  3. 03在AgentWorldBench评测中,Qwen-AgentWorld-397B-A17B整体均分(58.71)超越GPT-5.4(58.25)、Claude Opus 4.8与Gemini 3.1 Pro。
  4. 04在35B-A3B规模上,三阶段训练流水线将整体均分提升8.66分,使Qwen-AgentWorld-35B-A3B表现超过Claude Sonnet 4.6。
  5. 05模型基于超过1000万条真实环境交互轨迹训练,三个GUI领域的环境观测以可渲染代码(无障碍树XML、HTML、UI层级标记)而非像素帧呈现。
  6. 06在129条思维链中涌现3种推理模式:自我修正(平均每轮10.4次)、信息泄漏防护以及多步因果推理(如预测curl输出需要6步推理链)。
反方 / 局限
  • 研究人员明确表示LWM并非用来取代真实环境交互,真实环境交互始终是确保智能体行为可靠性的黄金标准,LWM仅提供一条互补路径。
  • 文章未提及该模型在真实复杂动态环境中的泛化表现,也未说明超过1000万条轨迹的数据质量与覆盖偏差,对长尾环境与异常场景的模拟效果尚不明确。
11 分钟 · 6 卡片 · 11 资料
读原文 →

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问