科技虎嗅·AI超维度··AI 生成
大模型为什么写不出好文章?
本文从智谱GLM-5.2的编程能力突破切入,揭示了一个核心矛盾:大模型的编程能力一路攀升,写作能力却集体趋同、日趋平庸。作者指出,问题不在技术,而在训练的“后训练”阶段——一个奖励“长”而非“好”的裁判模型系统性地扼杀了写作所需的简洁、个性与不确定性。更深层的原因在于,编程能力有客观量化指标(SWE-bench),能直接转化为商业回报与股价,而写作没有。文章引用多项研究,论证了模型并非天生写不好,而是当前的商业激励机制决定了资源向“可衡量”的能力倾斜。适合关注AI产业逻辑、模型训练机制及技术商业化的深度读者。原文 ↗原文 ↗
核心观点
- ▍当前大模型写作能力普遍平庸的根本原因,并非技术瓶颈,而是后训练阶段的评分机制(裁判模型偏好长文、压制多样性)与商业激励机制(只能量化编程能力并直接转化为股价)共同作用的结果。
- 01华盛顿大学团队测试70多个大模型发现,近八成情况下,不同模型对同一开放性问题的回答在观点、论证结构和表达上高度趋同,相关论文获得NeurIPS 2025最佳论文奖。
- 02阿里通义千问团队和加拿大Cohere公司的实验均表明,在预训练阶段加入更多文本和数学数据,不仅没有拖累编程能力,反而对其有提升作用,编程与写作在技术层面并不冲突。
- 03后训练中的强化学习依赖裁判模型打分,而裁判模型从人类标注员那里学到的“更长的回答往往更好”的偏见会被自我放大,导致模型倾向于冗长输出。
- 042026年初的一项研究直接测量出,大模型在创意写作中展现的“不确定性”显著低于专业人类作家,其每一句话都在追求“正确和安全”。
- 05智谱四个月内发布三个模型版本,每一版都围绕编程能力提升,发布后股价均有大幅上涨(GLM-5.2发布后涨85%),直观展示了编程能力与商业回报的直接关联。
- 062026年初名为“Can Good Writing Be Generative”的论文研究发现,通过对一位作家全部作品进行定向训练后,62%的文学领域专家盲审时认为AI写的内容比人类原作更好。
反方 / 局限
- — 本文逻辑隐含了一个前提:模型公司的商业目标与“产出好文章”的用户需求是冲突的。但作者并未深入讨论,如果出现一个以“写作质量”为核心卖点的模型公司,或出现类似SWE-bench的权威写作评测基准,当前格局是否会改变。
11 分钟 · 4 卡片 · 12 资料
读原文 →前置背景
平行视角
未来推演
延伸追问