7.7
深览指数
科技虎嗅·品玩··AI 生成

8个AI 押世界杯:西班牙被押爆,亚马尔成了安全牌

本文是「硅星人 Agent Eval」系列第三期,在2026世界杯开幕前对8家主流AI Agent(Claude、MiniMax、ChatGPT、Manus、Kimi、GLM、Genspark、Gemini)进行了一次系统性预测评测。核心发现:8家AI在冠军预测上高度趋同(6家押西班牙,8家送其进决赛),但在小组赛、淘汰赛细节上存在显著分歧。文章超越了简单的「谁猜得准」叙事,聚焦AI预测的本质:是独立分析,还是对公开共识(如Opta数据)的包装复述?通过「只留一条」的逼问,揭示了AI在「安全牌」(亚马尔最佳年轻球员)与「孤注一掷」(梅西进决赛、阿根廷出局)之间的策略分岔,并暴露了它们处理不确定性时的不同姿态——有的主动标注预测的数学必然错误率,有的则表演确定性。文章在世界杯期间会进行逐场清算,结果导向的评测本身构成一个有趣的实验设计。

核心观点
  • 本期评测核心并非AI对足球的理解,而是检验AI预测是否真正基于独立分析,还是对公开共识(如Opta模拟、《The Athletic》市场数据)的复述与包装。
  • 当被要求「只留一条押注」时,5家AI不约而同选了概率市场最稳的「亚马尔获最佳年轻球员」,暴露了AI在承担预测责任时倾向于选择安全牌而非真正反共识的判断。
  1. 018家AI中6家押西班牙夺冠,8家全部将西班牙送入决赛,而Opta模拟基准中西班牙夺冠概率仅16.1%,显示出AI预测的高度趋同。
  2. 02AI预测在夺冠概率上呈现光谱:Claude的Top5概率与Opta完全一致(光谱最左端),MiniMax将阿根廷抬至第二热门(最右端),Kimi、Genspark将西班牙改写至22%(比基准高6个百分点)。
  3. 03四组关键对赌:Claude赌阿根廷无法卫冕 vs MiniMax赌梅西进决赛;Gemini预言英格兰淘汰赛初期崩盘 vs Claude挺进决赛;GLM独抗七家看空巴西;Kimi极端看低哈兰德进球数 vs MiniMax、Claude看好挪威。
  4. 04AI在金球奖预测上同样趋同(7家给亚马尔),但逻辑内部有张力:押姆巴佩/凯恩金靴且让法国/英格兰走到最后的AI,与其冠军预测存在内在矛盾。
  5. 05AI处理不确定性的姿态分化:GLM主动声明「预测决赛对阵有超90%概率不发生」,MiniMax在追问后将主报告60-65%的置信度砍至20-30%;而其它模型则保持了对预测的确定性陈述。
  6. 06评测方法设计严谨:统一Prompt、固定格式、标注信源与置信度、分组评分(过程分30%+结果分70%),逐场以FIFA官方结果清算,押中未进世界杯球队会倒扣分数。
反方 / 局限
  • 文章本身也承认了评测的局限性:预测样本量小(仅8家AI)、预测区间完全重叠(不涉及AI基于不同时间窗口或离线训练的版本对比),且评测的结果分高度依赖世界杯这一单次随机游走样本,单次结果不能严格证明或证伪某家AI的预测方法论。
  • AI预测高度依赖公开数据源(Opta、市场赔率),但文章未展开讨论:如果AI能访问非公开或更精细的数据(如球员GPS追踪数据、更衣室心理评估),其「独立判断」是否会显著偏离共识。
亚马尔梅西姆巴佩哈兰德凯恩OptaClaudeMiniMaxChatGPTKimiGLMGensparkGeminiManus硅星人The Athletic2026年世界杯Agent Eval
10 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问