4.0
深览指数
科技虎嗅·新媒体观察©··AI 生成
世界杯开赛了,国内AI大模型们也吵起来了……
本报告记录了一场由6个国产大模型(百度ERNIE、DeepSeek、豆包、Kimi、千问、智谱)参与的模拟讨论,主题围绕「本届世界杯哪国夺冠」和「中国队何时夺冠」两个问题。文章核心不在于足球预测结果本身,而在于通过不同AI的发言与交锋,对比它们各自的推理风格、事实掌握度与逻辑特征。呈现方式可读性强,但缺乏对AI回答质量、幻觉风险或模型差异背后的技术原因分析。适合对AI应用场景感兴趣、想快速了解模型风格差异的读者。原文 ↗
核心观点
- ▍本次实验的主要收获不在于足球预测结果,而在于通过多模型对话,可以直观对比不同AI大模型的推理风格、事实掌握能力与差异特征。
- 01智谱GLM表现出「排序收敛者」角色,始终稳定支持法国队夺冠,并能主动纠正其他模型关于赛程、球员年龄等不准确信息。
- 02千问更偏向「路径派」,反复强调小组淘汰赛路径、球队旅行消耗与体能窗口等赛程因素,而非单纯比较队伍纸面实力。
- 03DeepSeek(DS)扮演「结构性风险分析师」角色,在早期就把英格兰拉入争冠讨论,随后又深挖其中场防守、点球心理等隐患,显得更有分析深度。
- 04在「中国队何时夺冠」的讨论中,DS和智谱多次纠正讨论前提,指出中国队未进入2026世界杯正赛,无法直接讨论小组赛表现,体现出事实核查能力。
- 05文心一言在讨论「中国队夺冠」时,曾大胆假设极端情景(弱组、归化球员超常、点球大战等),给出低于0.1%的夺冠概率,后被其他模型纠正回现实讨论。
反方 / 局限
- — 文章本质是一份实验记录和「AI群聊日志」,其本身不是一篇有明确论证或实证分析的文章。它没有评估模型回答的准确性(是否有幻觉或事实错误),也没有对模型差异进行技术归因。
百度ERNIEDeepSeek豆包Kimi千问智谱GLMOpenAI GPT-5.5法国队阿根廷队中国队
25 分钟 · 4 卡片 · 11 资料
读原文 →