8.1
深览指数
产品人人都是产品经理·AI Second··AI 生成

一场高考志愿填报,把五个大模型的老底都试出来了

作者以帮表妹填报四川新高考艺考志愿的真实经历,对比了Claude、Gemini、GPT、元宝、豆包五款通用AI在信息搜索、数据整合、规则理解、判断决策四个维度的表现。文章核心发现:没有一款AI能独立完成全流程,最有效的策略是让AI各司其职(Claude梳理规则、Gemini整合数据、GPT做逻辑验证),且人工必须对关键信息亲自核实。揭示了当前大模型在复杂决策场景下的核心瓶颈——上下文管理能力参差不齐、主动校验意识弱、任务理解易出错,以及用户如何通过精确分派任务弥补这些局限。适合正在或将要使用AI处理复杂任务的实践者阅读。原文 ↗

核心观点
  • 当前通用大模型无法独立完成高考志愿填报这类复杂决策任务,最有效的策略是让不同AI按各自能力分工协作,并配合人工核心信息核查。
  • 在高考志愿填报场景中,AI的能力可拆解为信息搜索、信息整合、规则理解、判断决策四个维度,不同模型在这四个维度上表现差异显著。
  1. 01Claude Opus 4.8在规则理解和前期框架搭建上表现最优,能主动提醒'以2026官方为准、25年数据才有参考价值',但5小时额度不足和长上下文处理成本高是主要限制。
  2. 02Gemini(客户端版)在院校数据整合方面表现突出,能直接生成包含官网链接的汇总表格便于核实,但存在擅自删改用户未提及字段的bug。
  3. 03GPT 5.5 Thinking(Deep Research)是唯一能先识别并认可作者志愿排序逻辑的模型,提出两点补充问题后迅速理解主观考量因素,被视为'人狠话不多的逻辑验证者'。
  4. 04元宝在尝试同时执行识图和联网搜索两项任务时彻底失败,直接回复'我联网不了'将任务推回给用户;后续测试发现单独识图可正常工作,说明任务表述混杂导致了失败。
  5. 05豆包被家中姐妹用于直接查询'录取分数线',但结果准确率低,需要人工逐一去官网核实,说明其在复杂查询场景下的可靠性不足。
  6. 06元宝-DeepSeek在处理志愿排序时,检索信息的时间基点错误设定为2025年,且未主动向用户确认关键时间信息;对于首次独立招生的院校,它先建议删除,在补充信息后又建议提前志愿顺序,前后矛盾。
反方 / 局限
  • 作者反思指出,即使知道各AI的优势,在志愿填报的紧迫感和压力下,用户仍倾向于'哪个顺手用哪个',提前规划最佳分工策略在实际操作中难以执行。
  • AI能力的发挥高度依赖用户精确描述任务的能力——同样的工具、不同的人使用效果差异巨大,作者自己就因'一句话混杂识图和联网'导致元宝翻车。
  • 在高考志愿这种重要决策场景中,用户对AI的信任度依然很低,即使AI输出结果明确,人还是会选择自己去官网核实关键数据。
13 分钟 · 5 卡片 · 11 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问