一场高考志愿填报，把五个大模型的老底都试出来了

8.1

深览指数

产品人人都是产品经理·AI Second·昨天 09:46·AI 生成

一场高考志愿填报，把五个大模型的老底都试出来了

作者以帮表妹填报四川新高考艺考志愿的真实经历，对比了Claude、Gemini、GPT、元宝、豆包五款通用AI在信息搜索、数据整合、规则理解、判断决策四个维度的表现。文章核心发现：没有一款AI能独立完成全流程，最有效的策略是让AI各司其职（Claude梳理规则、Gemini整合数据、GPT做逻辑验证），且人工必须对关键信息亲自核实。揭示了当前大模型在复杂决策场景下的核心瓶颈——上下文管理能力参差不齐、主动校验意识弱、任务理解易出错，以及用户如何通过精确分派任务弥补这些局限。适合正在或将要使用AI处理复杂任务的实践者阅读。原文 ↗原文 ↗

核心观点

▍当前通用大模型无法独立完成高考志愿填报这类复杂决策任务，最有效的策略是让不同AI按各自能力分工协作，并配合人工核心信息核查。
▍在高考志愿填报场景中，AI的能力可拆解为信息搜索、信息整合、规则理解、判断决策四个维度，不同模型在这四个维度上表现差异显著。

01Claude Opus 4.8在规则理解和前期框架搭建上表现最优，能主动提醒'以2026官方为准、25年数据才有参考价值'，但5小时额度不足和长上下文处理成本高是主要限制。
02Gemini（客户端版）在院校数据整合方面表现突出，能直接生成包含官网链接的汇总表格便于核实，但存在擅自删改用户未提及字段的bug。
03GPT 5.5 Thinking（Deep Research）是唯一能先识别并认可作者志愿排序逻辑的模型，提出两点补充问题后迅速理解主观考量因素，被视为'人狠话不多的逻辑验证者'。
04元宝在尝试同时执行识图和联网搜索两项任务时彻底失败，直接回复'我联网不了'将任务推回给用户；后续测试发现单独识图可正常工作，说明任务表述混杂导致了失败。
05豆包被家中姐妹用于直接查询'录取分数线'，但结果准确率低，需要人工逐一去官网核实，说明其在复杂查询场景下的可靠性不足。
06元宝-DeepSeek在处理志愿排序时，检索信息的时间基点错误设定为2025年，且未主动向用户确认关键时间信息；对于首次独立招生的院校，它先建议删除，在补充信息后又建议提前志愿顺序，前后矛盾。

反方 / 局限

— 作者反思指出，即使知道各AI的优势，在志愿填报的紧迫感和压力下，用户仍倾向于'哪个顺手用哪个'，提前规划最佳分工策略在实际操作中难以执行。
— AI能力的发挥高度依赖用户精确描述任务的能力——同样的工具、不同的人使用效果差异巨大，作者自己就因'一句话混杂识图和联网'导致元宝翻车。
— 在高考志愿这种重要决策场景中，用户对AI的信任度依然很低，即使AI输出结果明确，人还是会选择自己去官网核实关键数据。

Claude Opus 4.8 Gemini GPT 5.5 Thinking 元宝豆包 DeepSeek 四川新高考艺考志愿填报人人都是产品经理

13 分钟 · 5 卡片 · 11 资料

读原文 →

一场高考志愿填报，把五个大模型的老底都试出来了

概念锚点

前置背景

平行视角

未来推演

延伸追问