6.9
深览指数
科技虎嗅·AIX财经··AI 生成

大模型榜单,能不能信?

文章揭露大模型榜单水分:厂商通过多个变体选最佳成绩提交(如Meta Llama 4)、针对性刷题训练导致分数通胀、离线测试与真实使用场景脱节。核心观点是单一榜单不可靠,应多维度交叉验证,并将模型放回自身业务场景实测。适合关注模型选型的技术决策者、AI产品经理及从业者阅读。原文 ↗

核心观点
  • 当前大模型榜单存在严重失真问题,分数通胀、刷题成潜规则、考题与真实场景脱节,用户不能仅凭单一榜单排名评判模型好坏。
  • 评估模型应遵循「多来源、多维度、动态观察」原则,并结合自身业务进行真实环境的并行测试。
  1. 012024年4月,Meta发布Llama 4 Maverick,在LMArena盲测榜单上ELO得分1417,排名第二;但后被学术论文揭发,Meta私下测试了至少27个模型变体,仅公布表现最好的。实际开源版本排名跌至第32。
  2. 02分通胀案例:GSM8K和MMLU等经典基准测试,几乎所有主流模型都已接近满分,失去筛选区分度。
  3. 03行业刷榜手法分两种:使用原题或高相似度改编题训练(背题考试);拆解核心知识点合成同类数据训练(刷模拟卷)。
  4. 04国内第三方评测机构SuperCLUE 2023年5月评测中,将科大讯飞星火模型排第四,但被指出其官网顾问排名第一位为哈工大讯飞联合实验室研究员,客观性存疑。
反方 / 局限
  • 文章承认LMArena等在线盲测平台存在用户主观偏好,研究显示用户更倾向选择篇幅更长、看似更专业的回答,而非客观最优。
  • 第三方独立榜单(如SuperCLUE、LiveBench)虽然立场相对中立,但其权重设置、评分规则透明度有限,仍由平台自行把控。
11 分钟 · 4 卡片 · 9 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问