6.4
深览指数
科技腾讯新闻··AI 生成

智谱把GLM-5.2的炼丹炉直接开源了,Fable 5级的开源模型很快可能达到

智谱开源了其内部用于强化学习训练的框架 slime,声称 GLM-5.2 的后训练仅用约 2 天。文章详细介绍了 slime 的技术架构、设计理念(深度绑定 Megatron 与 SGLang)及基于它构建的生态项目。核心结论是,通过开源这个经顶尖模型验证的训练框架,智谱意图降低开源模型达到顶级水平(如 Fable 5 级)的门槛。适合关注大模型训练框架、强化学习后训练技术细节的 AI 从业者阅读。原文 ↗

核心观点
  • 智谱开源其内部强化学习训练框架 slime,旨在通过开放经GLM系列等顶尖模型验证的核心基础设施,加速开源模型达到 Fable 5 级水平的目标。
  • slime 的设计核心是深度绑定 Megatron 和 SGLang,以避免多后端抽象带来的性能损耗,并保留上游引擎的原生能力。
  1. 01GLM-5.2 的后训练使用 slime 框架仅耗时约2天,其评测水平被认为介于 Opus 4.7 和 Opus 4.8 之间。
  2. 02slime 已用于 GLM-5.2、5.1、5、4.7、4.6、4.5 等多代模型的后训练,并支持 Qwen3.6、DeepSeek V3、Llama 3 等外部模型。
  3. 03框架提供核心能力:高性能训练(连接 Megatron 和 SGLang)和灵活数据生成(自定义接口和基于服务器的引擎)。
  4. 04设计原则包括:正确性优先(显式数据流、可复现性)、原生参数透传(直接使用 Megatron 和 SGLang 参数)、数据生成自由度(支持数学、代码、工具调用、多智能体等场景)。
  5. 05生态项目包括基于 slime 构建的 Miles、vime、Relax、OpenClaw-RL、P1、RLVE、TritonForge 等,覆盖企业级训练、全模态 RL、物理推理模型训练等领域。
  6. 06项目地址为 https://github.com/THUDM/slime,并提供了快速开始指南、多智能体 (multi_agent)、搜索增强 (search-r1) 等示例。
反方 / 局限
  • 文章承认 slime 只深度优化 SGLang 一个推理后端,这是一个明确的取舍,旨在避免兼容多后端带来的公共功能最小化问题。
智谱AIGLM-5.2slimeMegatronSGLangOpenClawFable 5RL ScalingRLVETritonForge
12 分钟 · 6 卡片 · 12 资料
读原文 →

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问