大模型为什么写不出好文章？

8.1

深览指数

科技虎嗅·AI超维度·7小时前·AI 生成

大模型为什么写不出好文章？

本文从智谱GLM-5.2的编程能力突破切入，揭示了一个核心矛盾：大模型的编程能力一路攀升，写作能力却集体趋同、日趋平庸。作者指出，问题不在技术，而在训练的“后训练”阶段——一个奖励“长”而非“好”的裁判模型系统性地扼杀了写作所需的简洁、个性与不确定性。更深层的原因在于，编程能力有客观量化指标（SWE-bench），能直接转化为商业回报与股价，而写作没有。文章引用多项研究，论证了模型并非天生写不好，而是当前的商业激励机制决定了资源向“可衡量”的能力倾斜。适合关注AI产业逻辑、模型训练机制及技术商业化的深度读者。原文 ↗原文 ↗

核心观点

▍当前大模型写作能力普遍平庸的根本原因，并非技术瓶颈，而是后训练阶段的评分机制（裁判模型偏好长文、压制多样性）与商业激励机制（只能量化编程能力并直接转化为股价）共同作用的结果。

01华盛顿大学团队测试70多个大模型发现，近八成情况下，不同模型对同一开放性问题的回答在观点、论证结构和表达上高度趋同，相关论文获得NeurIPS 2025最佳论文奖。
02阿里通义千问团队和加拿大Cohere公司的实验均表明，在预训练阶段加入更多文本和数学数据，不仅没有拖累编程能力，反而对其有提升作用，编程与写作在技术层面并不冲突。
03后训练中的强化学习依赖裁判模型打分，而裁判模型从人类标注员那里学到的“更长的回答往往更好”的偏见会被自我放大，导致模型倾向于冗长输出。
042026年初的一项研究直接测量出，大模型在创意写作中展现的“不确定性”显著低于专业人类作家，其每一句话都在追求“正确和安全”。
05智谱四个月内发布三个模型版本，每一版都围绕编程能力提升，发布后股价均有大幅上涨（GLM-5.2发布后涨85%），直观展示了编程能力与商业回报的直接关联。
062026年初名为“Can Good Writing Be Generative”的论文研究发现，通过对一位作家全部作品进行定向训练后，62%的文学领域专家盲审时认为AI写的内容比人类原作更好。

反方 / 局限

— 本文逻辑隐含了一个前提：模型公司的商业目标与“产出好文章”的用户需求是冲突的。但作者并未深入讨论，如果出现一个以“写作质量”为核心卖点的模型公司，或出现类似SWE-bench的权威写作评测基准，当前格局是否会改变。

GLM-5.2 Claude Opus 4.8 智谱 SWE-bench NeurIPS Nathan Lambert Cohere 葬AI 赛西莉亚

11 分钟 · 4 卡片 · 12 资料

读原文 →

大模型为什么写不出好文章？

前置背景

平行视角

未来推演

延伸追问