大模型榜单，能不能信？

6.9

深览指数

科技虎嗅·AIX财经·昨天 21:46·AI 生成

文章揭露大模型榜单水分：厂商通过多个变体选最佳成绩提交（如Meta Llama 4）、针对性刷题训练导致分数通胀、离线测试与真实使用场景脱节。核心观点是单一榜单不可靠，应多维度交叉验证，并将模型放回自身业务场景实测。适合关注模型选型的技术决策者、AI产品经理及从业者阅读。原文 ↗原文 ↗

核心观点

012024年4月，Meta发布Llama 4 Maverick，在LMArena盲测榜单上ELO得分1417，排名第二；但后被学术论文揭发，Meta私下测试了至少27个模型变体，仅公布表现最好的。实际开源版本排名跌至第32。
02分通胀案例：GSM8K和MMLU等经典基准测试，几乎所有主流模型都已接近满分，失去筛选区分度。
03行业刷榜手法分两种：使用原题或高相似度改编题训练（背题考试）；拆解核心知识点合成同类数据训练（刷模拟卷）。
04国内第三方评测机构SuperCLUE 2023年5月评测中，将科大讯飞星火模型排第四，但被指出其官网顾问排名第一位为哈工大讯飞联合实验室研究员，客观性存疑。

反方 / 局限

11 分钟 · 4 卡片 · 9 资料