科技36 氪·字母AI··AI 生成
AI写高考作文,混元给DeepSeek-V4打了满分
本文作者让 GPT-5.5、Fable-5、DeepSeek-V4 和 Hunyuan 3 Preview 四个大模型以 2026 年北京高考作文题作答,再让它们互相匿名打分并自检。结果 DeepSeek-V4 的记叙文平均分最高(46分),三篇议论文均陷入安全套路。文章通过这个游戏揭示了当前 AI 写作的共同弱点:议论文高度同质化、例证陈旧、缺乏思想个性;记叙文在情感和细节上略胜一筹。适合对 AI 写作能力边界和大模型评测感兴趣的技术/教育领域读者。
核心观点
- ▍当前主流大模型(GPT-5.5、Fable-5、Hunyuan 3 Preview)写议论文高度同质化:结构一致、引例重复(王羲之、袁隆平、改革开放)、语言套话(“理想的彼岸”“行稳致远”),而 DeepSeek-V4 的记叙文因个人化细节和情感更易出彩。
- 01三篇议论文开头均引用“凡事预则立,不预则废”,都举王羲之的例子,结构均为“规划重要→功夫重要→二者统一”。
- 02DeepSeek-V4 的记叙文以祖父书房《诗经》为线索,通过“桃之夭夭”顿悟、友情误会化解两个具体场景展开,含比喻密集的唯美描写。
- 03四位老师的平均分:GPT-5.5 43.25、Fable-5 44、DeepSeek-V4 46、Hunyuan 3 Preview 43.25;同一篇作文跨老师评分差可达8分。
- 04Hunyuan 3 Preview 最宽松(平均48分),Fable-5 最严格(平均42.25分);GPT-5.5 自评41分并批评自己“思想辨识度不够”。
反方 / 局限
- — 文章未讨论 AI 阅卷评分标准的可靠性——AI 评分是否真的能模拟人类阅卷者对“思想深度”“个性”的判断,以及自检机制是真的校正偏差还是强化原本的本能偏好。
- — 作者默认“记叙文比议论文更易出彩”为普遍结论,但未考虑题目差异(高考题目二中“含英咀华”天然利于故事展开),不是模型类型差异。
GPT-5.5Fable-5DeepSeek-V4Hunyuan 3 PreviewAnthropic程端礼《诗经》
18 分钟 · 5 卡片 · 13 资料
读原文 →概念锚点
前置背景
平行视角
未来推演
延伸追问