实测GLM-5.2 ：你别说，他还真能跟Claude干一下

7.9

深览指数

科技虎嗅·知危·17小时前·AI 生成

实测GLM-5.2 ：你别说，他还真能跟Claude干一下

本文对智谱开源模型GLM-5.2进行深度技术评测，并与Claude Opus 4.8在接近企业生产环境（5万文件规模的LuckySheet权限系统开发）中展开对比。核心发现是：GLM-5.2在工程实现和大型代码库理解能力上已能与Claude正面竞争，尤其在一次性开发成功率上表现惊艳；但在复杂业务逻辑设计、权限模型抽象和规则冲突处理等架构层面，Claude Opus 4.8仍具明显优势。评测同时指出GLM-5.2存在执行耗时过长的问题。适合关注AI编码能力、国产模型进展的技术决策者阅读。原文 ↗原文 ↗

核心观点

▍在工程实现能力上，GLM-5.2已能在大型真实项目中与Claude Opus 4.8正面竞争，但在复杂业务系统设计、权限模型抽象、规则冲突处理等偏架构和产品层面，Claude Opus 4.8仍有明显优势。

01在小游戏开发（2048、PVZ）和网页版Excel开发等基础测试中，GLM-5.2一次性完成度很高，PVZ植物和僵尸有动态UI且考虑血量状态变化，是开源模型中首次做到单次运行就有如此高完成度。
02在接近5万文件数的LuckySheet权限系统改造测试中，GLM-5.2在“工作表防删除保护”和“工作簿级统一权限管理”功能上成功实现，UI界面简洁直观，没有出现bug。
03在关键的“角色-权限”体系实现上，GLM-5.2在默认high effort参数下未能完成，提升至xhigh后成功，所有人都能验证Owner/Editor/Viewer三角色的权限隔离逻辑。
04在“用户-角色”和“用户-权限自定义”体系实现中，Claude Opus 4.8处理了用户自定义权限与全局设置的逻辑冲突，支持覆盖和重置；GLM-5.2则采用了更省事的方式，自定义权限只会比全局设置更少，不符合提示词要求。
05GLM-5.2在LuckySheet权限系统开发中，每个需求耗时将近一小时，总用量约4M tokens；Claude Opus 4.8总用量约759k tokens，速度差距明显，作者猜测是算力供给原因。
06在大型代码库理解能力上，GLM-5.2未出现中途崩溃、上下文失忆、功能跑偏等问题，能持续理解项目结构并完成跨模块修改。

反方 / 局限

— GLM-5.2耗时问题严重，在3D引擎开发任务中耗时一小时后仍未出结果，最后放弃。高耗时主要花在验证上，虽然提高了一次性成功率，但影响实际使用体验。
— 文章评测的核心业务场景是权限系统，但作者也承认企业生产环境中的权限系统本质上是业务规则的表达，而不只是技术问题，包含大量隐含规则和攻防博弈，本次测试仅基于功能实现层面，不能代表真实生产环境。
— 在提示词层面，作者承认在第二步“工作簿级统一权限管理”中为GLM-5.2做了调整，提醒它把权限集合直接搬过去，这影响了对比的公平性。

GLM-5.2Claude Opus 4.8LuckySheet智谱AI (Zhipu AI)知危大饼

31 分钟 · 4 卡片 · 9 资料

读原文 →

实测GLM-5.2 ：你别说，他还真能跟Claude干一下

前置背景

平行视角

未来推演

延伸追问