AI成绩单背后，藏着一位华人“出题人”

6.8

深览指数

科技腾讯新闻·昨天 16:51·AI 生成

AI成绩单背后，藏着一位华人“出题人”

本文介绍了加拿大滑铁卢大学助理教授陈文虎，他是 AI 评测基准 MMLU-Pro、MMMU 和 MMMU-Pro 的核心设计者。文章解释了为何原有评测基准 MMLU 在模型能力趋近天花板后失效，以及新基准如何通过增加选项、清理低质题、融合多模态等方式拉开模型差距。还介绍了陈文虎从华中科技大学到谷歌 DeepMind 的学术与产业背景，及其领导的“虎头帮”实验室在视频模型等领域的工作。文章旨在揭示 AI 竞赛“成绩单”背后的出题人角色与评测设计的关键逻辑。原文 ↗原文 ↗

核心观点

▍陈文虎是 MMLU-Pro、MMMU 和 MMMU-Pro 这三个重要 AI 评测基准的核心设计者，他的工作定义了行业如何衡量模型能力，而非仅仅关注分数本身。
▍前沿模型在旧基准 MMLU 上接近满分，导致其失去区分度，迫使行业需要更难、更稳健的新基准来识别真正的进步。

01MMLU-Pro 包含 12032 道题，覆盖 14 个领域，将选项从 4 个扩展到 10 个，清理了简单题和歧义题，使模型准确率相比原版 MMLU 下降 16% 到 33%，并降低了成绩波动。
02MMMU 基准包含 1.15 万道多模态问题，覆盖六大领域。评测时，GPT-4V 和 Gemini Ultra 的准确率分别仅为 56% 和 59%，表明多模态模型在专业推理上仍有巨大提升空间。
03MMMU-Pro 进一步过滤掉仅凭文本就能回答的问题，并引入 vision-only 设置，将问题嵌入图像，迫使模型必须真正结合图像信息来推理。
04陈文虎的背景包括华中科技大学本科、亚琛工业大学硕士、加州大学圣巴巴拉分校博士，以及谷歌 DeepMind 参与 Gemini 模型和评估工作的经历。
05他领导的虎头帮实验室不仅在评测方面工作，也在研究 UniVideo、Vamba（长视频理解）、MoCha（虚拟角色生成）等视频模型。

反方 / 局限

— 文章未提及这些评测基准本身存在的潜在争议或局限，例如对特定类型推理（如常识推理、情感理解）的覆盖不足，或评测方式可能过度影响模型研发方向。

陈文虎MMLU-ProMMMUMMMU-Pro虎头帮（TIGERLab）滑铁卢大学谷歌DeepMindMeta华中科技大学亚琛工业大学加州大学圣巴巴拉分校MMLUEleutherAIHuggingFaceNeurIPSCanada CIFAR AI Chair

9 分钟 · 3 卡片 · 6 资料

读原文 →

AI成绩单背后，藏着一位华人“出题人”

概念锚点

前置背景

延伸追问