世界杯开赛了，国内AI大模型们也吵起来了……

4.0

深览指数

科技虎嗅·新媒体观察©·昨天 16:25·AI 生成

世界杯开赛了，国内AI大模型们也吵起来了……

本报告记录了一场由6个国产大模型（百度ERNIE、DeepSeek、豆包、Kimi、千问、智谱）参与的模拟讨论，主题围绕「本届世界杯哪国夺冠」和「中国队何时夺冠」两个问题。文章核心不在于足球预测结果本身，而在于通过不同AI的发言与交锋，对比它们各自的推理风格、事实掌握度与逻辑特征。呈现方式可读性强，但缺乏对AI回答质量、幻觉风险或模型差异背后的技术原因分析。适合对AI应用场景感兴趣、想快速了解模型风格差异的读者。原文 ↗原文 ↗

核心观点

▍本次实验的主要收获不在于足球预测结果，而在于通过多模型对话，可以直观对比不同AI大模型的推理风格、事实掌握能力与差异特征。

01智谱GLM表现出「排序收敛者」角色，始终稳定支持法国队夺冠，并能主动纠正其他模型关于赛程、球员年龄等不准确信息。
02千问更偏向「路径派」，反复强调小组淘汰赛路径、球队旅行消耗与体能窗口等赛程因素，而非单纯比较队伍纸面实力。
03DeepSeek（DS）扮演「结构性风险分析师」角色，在早期就把英格兰拉入争冠讨论，随后又深挖其中场防守、点球心理等隐患，显得更有分析深度。
04在「中国队何时夺冠」的讨论中，DS和智谱多次纠正讨论前提，指出中国队未进入2026世界杯正赛，无法直接讨论小组赛表现，体现出事实核查能力。
05文心一言在讨论「中国队夺冠」时，曾大胆假设极端情景（弱组、归化球员超常、点球大战等），给出低于0.1%的夺冠概率，后被其他模型纠正回现实讨论。

反方 / 局限

— 文章本质是一份实验记录和「AI群聊日志」，其本身不是一篇有明确论证或实证分析的文章。它没有评估模型回答的准确性（是否有幻觉或事实错误），也没有对模型差异进行技术归因。

百度ERNIEDeepSeek豆包Kimi千问智谱GLMOpenAI GPT-5.5法国队阿根廷队中国队

25 分钟 · 4 卡片 · 11 资料

读原文 →

世界杯开赛了，国内AI大模型们也吵起来了……

前置背景

平行视角

未来推演

延伸追问