6.3
深览指数
科技腾讯新闻··AI 生成

Fable-5之下,智谱开源的GLM-5.2拿下AI编程第一

智谱开源的GLM-5.2模型在AI编程评测中取得全球第二、开源第一的成绩,并在编码品味(Design Arena)上获得全球第一。文章通过一系列实测展示了模型在完整代码库理解、跨文件追Bug、新增功能、多任务执行等真实工程场景中的能力,强调其1M长上下文的实用价值。作者核心观点是AI编程竞争已从单次输出能力转向长期工作记忆能力,而GLM-5.2代表的开源长程Coding Agent路线,为团队提供了可私有化、可控成本、可接入自有工具链的选择。本文适合关注AI编程、模型工程化落地的技术决策者和开发者阅读。原文 ↗

核心观点
  • AI编程竞争已从模型单次输出能力,转向长期工作记忆能力——模型需要记住项目结构、历史决策和边界条件,才能在真实工程流中持续自主推进任务。
  • 智谱GLM-5.2借其1M长上下文能力,开源且可私有化,代表了一条与闭源Claude Code和OpenAI CodeX并行的关键路线,填补了团队在成本可控下进行长程Coding Agent的拼图。
  1. 01GLM-5.2在Arena Coding榜单取得全球第二、开源第一的成绩,Design Arena(模型品味评测)取得全球第一。
  2. 02GLM-5.2支持真正可用的1M上下文,在实测中能够理解Appsmith开源项目的monorepo结构,精准定位前端Redux/Saga中心化、后端ActionExecutionSolutionCEImpl.java过重等关键耦合点。
  3. 03在跨文件追Bug的OpenWebUI测试中,GLM-5.2将问题定位到“前端把上游SSE分片后再回传,后端按完整事件解析”的跨组件链路,提供了前后端两侧修复方向。
  4. 04在“会话摘要导出为Markdown”功能新增测试中,GLM-5.2将任务拆解为后端工具、路由、前端API、UI入口和测试五层,最终跑通38个后端测试。
  5. 05在多任务实测中,GLM-5.2一次性生成了关于英国PBSA行业的完整研究数据包,包含文件夹、图表、分析报告。
  6. 06网友和Arena官方分别用“疯狂”和“令人难以置信的里程碑”评价GLM-5.2的成绩。
反方 / 局限
  • 作者明确承认1M上下文并非适用于所有任务,对于修改小函数、补简单脚本等场景,只给必要文件反而更快、更干净、更不容易过度设计。
  • 文章隐去的局限:实测全部由作者设计,缺少第三方独立验证;对比对象(GPT-5.5 High、Opus 4.8 High、Kimi K2.7 Code)的名称疑似虚构或代号,不可比性较高;文章本身是智谱的公关稿,立场偏向明显。
智谱AIGLM-5.2Claude Fable 5Arena CodingDesign ArenaAppsmithOpenWebUI1M上下文AgenticCodingClaude CodeOpenAI CodeX
13 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问