AI写高考作文，混元给DeepSeek-V4打了满分

8.1

深览指数

科技36 氪·字母AI·4小时前·AI 生成

AI写高考作文，混元给DeepSeek-V4打了满分

本文作者让 GPT-5.5、Fable-5、DeepSeek-V4 和 Hunyuan 3 Preview 四个大模型以 2026 年北京高考作文题作答，再让它们互相匿名打分并自检。结果 DeepSeek-V4 的记叙文平均分最高（46分），三篇议论文均陷入安全套路。文章通过这个游戏揭示了当前 AI 写作的共同弱点：议论文高度同质化、例证陈旧、缺乏思想个性；记叙文在情感和细节上略胜一筹。适合对 AI 写作能力边界和大模型评测感兴趣的技术/教育领域读者。

核心观点

▍当前主流大模型（GPT-5.5、Fable-5、Hunyuan 3 Preview）写议论文高度同质化：结构一致、引例重复（王羲之、袁隆平、改革开放）、语言套话（“理想的彼岸”“行稳致远”），而 DeepSeek-V4 的记叙文因个人化细节和情感更易出彩。

01三篇议论文开头均引用“凡事预则立，不预则废”，都举王羲之的例子，结构均为“规划重要→功夫重要→二者统一”。
02DeepSeek-V4 的记叙文以祖父书房《诗经》为线索，通过“桃之夭夭”顿悟、友情误会化解两个具体场景展开，含比喻密集的唯美描写。
03四位老师的平均分：GPT-5.5 43.25、Fable-5 44、DeepSeek-V4 46、Hunyuan 3 Preview 43.25；同一篇作文跨老师评分差可达8分。
04Hunyuan 3 Preview 最宽松（平均48分），Fable-5 最严格（平均42.25分）；GPT-5.5 自评41分并批评自己“思想辨识度不够”。

反方 / 局限

— 文章未讨论 AI 阅卷评分标准的可靠性——AI 评分是否真的能模拟人类阅卷者对“思想深度”“个性”的判断，以及自检机制是真的校正偏差还是强化原本的本能偏好。
— 作者默认“记叙文比议论文更易出彩”为普遍结论，但未考虑题目差异（高考题目二中“含英咀华”天然利于故事展开），不是模型类型差异。

GPT-5.5Fable-5DeepSeek-V4Hunyuan 3 PreviewAnthropic程端礼《诗经》

18 分钟 · 5 卡片 · 13 资料

读原文 →

AI写高考作文，混元给DeepSeek-V4打了满分

概念锚点

前置背景

平行视角

未来推演

延伸追问