7.9
深览指数
科技虎嗅·知危··AI 生成
实测GLM-5.2 :你别说,他还真能跟Claude干一下
本文对智谱开源模型GLM-5.2进行深度技术评测,并与Claude Opus 4.8在接近企业生产环境(5万文件规模的LuckySheet权限系统开发)中展开对比。核心发现是:GLM-5.2在工程实现和大型代码库理解能力上已能与Claude正面竞争,尤其在一次性开发成功率上表现惊艳;但在复杂业务逻辑设计、权限模型抽象和规则冲突处理等架构层面,Claude Opus 4.8仍具明显优势。评测同时指出GLM-5.2存在执行耗时过长的问题。适合关注AI编码能力、国产模型进展的技术决策者阅读。原文 ↗
核心观点
- ▍在工程实现能力上,GLM-5.2已能在大型真实项目中与Claude Opus 4.8正面竞争,但在复杂业务系统设计、权限模型抽象、规则冲突处理等偏架构和产品层面,Claude Opus 4.8仍有明显优势。
- 01在小游戏开发(2048、PVZ)和网页版Excel开发等基础测试中,GLM-5.2一次性完成度很高,PVZ植物和僵尸有动态UI且考虑血量状态变化,是开源模型中首次做到单次运行就有如此高完成度。
- 02在接近5万文件数的LuckySheet权限系统改造测试中,GLM-5.2在“工作表防删除保护”和“工作簿级统一权限管理”功能上成功实现,UI界面简洁直观,没有出现bug。
- 03在关键的“角色-权限”体系实现上,GLM-5.2在默认high effort参数下未能完成,提升至xhigh后成功,所有人都能验证Owner/Editor/Viewer三角色的权限隔离逻辑。
- 04在“用户-角色”和“用户-权限自定义”体系实现中,Claude Opus 4.8处理了用户自定义权限与全局设置的逻辑冲突,支持覆盖和重置;GLM-5.2则采用了更省事的方式,自定义权限只会比全局设置更少,不符合提示词要求。
- 05GLM-5.2在LuckySheet权限系统开发中,每个需求耗时将近一小时,总用量约4M tokens;Claude Opus 4.8总用量约759k tokens,速度差距明显,作者猜测是算力供给原因。
- 06在大型代码库理解能力上,GLM-5.2未出现中途崩溃、上下文失忆、功能跑偏等问题,能持续理解项目结构并完成跨模块修改。
反方 / 局限
- — GLM-5.2耗时问题严重,在3D引擎开发任务中耗时一小时后仍未出结果,最后放弃。高耗时主要花在验证上,虽然提高了一次性成功率,但影响实际使用体验。
- — 文章评测的核心业务场景是权限系统,但作者也承认企业生产环境中的权限系统本质上是业务规则的表达,而不只是技术问题,包含大量隐含规则和攻防博弈,本次测试仅基于功能实现层面,不能代表真实生产环境。
- — 在提示词层面,作者承认在第二步“工作簿级统一权限管理”中为GLM-5.2做了调整,提醒它把权限集合直接搬过去,这影响了对比的公平性。
GLM-5.2Claude Opus 4.8LuckySheet智谱AI (Zhipu AI)知危大饼
31 分钟 · 4 卡片 · 9 资料
读原文 →