6.8
深览指数
科技腾讯新闻··AI 生成
AI成绩单背后,藏着一位华人“出题人”
本文介绍了加拿大滑铁卢大学助理教授陈文虎,他是 AI 评测基准 MMLU-Pro、MMMU 和 MMMU-Pro 的核心设计者。文章解释了为何原有评测基准 MMLU 在模型能力趋近天花板后失效,以及新基准如何通过增加选项、清理低质题、融合多模态等方式拉开模型差距。还介绍了陈文虎从华中科技大学到谷歌 DeepMind 的学术与产业背景,及其领导的“虎头帮”实验室在视频模型等领域的工作。文章旨在揭示 AI 竞赛“成绩单”背后的出题人角色与评测设计的关键逻辑。原文 ↗
核心观点
- ▍陈文虎是 MMLU-Pro、MMMU 和 MMMU-Pro 这三个重要 AI 评测基准的核心设计者,他的工作定义了行业如何衡量模型能力,而非仅仅关注分数本身。
- ▍前沿模型在旧基准 MMLU 上接近满分,导致其失去区分度,迫使行业需要更难、更稳健的新基准来识别真正的进步。
- 01MMLU-Pro 包含 12032 道题,覆盖 14 个领域,将选项从 4 个扩展到 10 个,清理了简单题和歧义题,使模型准确率相比原版 MMLU 下降 16% 到 33%,并降低了成绩波动。
- 02MMMU 基准包含 1.15 万道多模态问题,覆盖六大领域。评测时,GPT-4V 和 Gemini Ultra 的准确率分别仅为 56% 和 59%,表明多模态模型在专业推理上仍有巨大提升空间。
- 03MMMU-Pro 进一步过滤掉仅凭文本就能回答的问题,并引入 vision-only 设置,将问题嵌入图像,迫使模型必须真正结合图像信息来推理。
- 04陈文虎的背景包括华中科技大学本科、亚琛工业大学硕士、加州大学圣巴巴拉分校博士,以及谷歌 DeepMind 参与 Gemini 模型和评估工作的经历。
- 05他领导的虎头帮实验室不仅在评测方面工作,也在研究 UniVideo、Vamba(长视频理解)、MoCha(虚拟角色生成)等视频模型。
反方 / 局限
- — 文章未提及这些评测基准本身存在的潜在争议或局限,例如对特定类型推理(如常识推理、情感理解)的覆盖不足,或评测方式可能过度影响模型研发方向。
陈文虎MMLU-ProMMMUMMMU-Pro虎头帮(TIGERLab)滑铁卢大学谷歌DeepMindMeta华中科技大学亚琛工业大学加州大学圣巴巴拉分校MMLUEleutherAIHuggingFaceNeurIPSCanada CIFAR AI Chair
9 分钟 · 3 卡片 · 6 资料
读原文 →