6.5
深览指数
产品腾讯新闻·机器之心··AI 生成
国产AI高考708分,这款模型靠什么成为「屏蔽生」?
多家媒体对主流大模型进行了2026年高考全科及单科测试,讯飞星火X2在物理类和历史类总分中均获得708分,位列第一梯队,且在数学、语文作文等单科测试中表现突出。文章分析指出,其优势并非来自单一学科的极限能力,而在于各学科的均衡稳定,以及解题步骤的规范性。核心原因被归结为科大讯飞深耕教育22年积累的独家教学数据(学生作答过程、教师评分标准等),以及据此训练的「教学思维链」,使模型学会了评判标准而非仅知识本身。适合关注AI产品能力测评、教育科技竞争格局的读者。原文 ↗
核心观点
- ▍讯飞星火X2在高考评测中领先的核心,不是单科极限能力,而是各学科表现的均衡性,以及对考试评分标准(过程规范性)的准确理解,这源于其独有的教育场景数据积累。
- ▍在教育AI的竞争中,技术壁垒正从模型答题能力,转向产品能否真正嵌入教学流程、形成使用习惯并积累场景数据,而数据积累比模型参数规模更具决定性。
- 01羊城晚报评测中,讯飞星火X2物理类总分708分,与Claude Opus 4.8并列第一;历史类总分突破700分,为唯一达到该水平的模型。
- 02新京报测试中,讯飞星火在2026年新高考I卷数学题中获得148分,高于Kimi(145分)和DeepSeek(144分)。澎湃新闻测评中,星火语文作文得分65.5分,位列第一。
- 03部分大模型在数学解题中出现步骤跳跃或引入超纲解法,会因过程不规范被扣分;讯飞星火X2的解题步骤更规范,在几何题中展现了数形结合能力。
- 04科大讯飞从2004年布局教育,其AI技术已深度应用于全国6万余所小学和中学,积累了高标注密度的学情数据(如学生分步作答过程、教师批注)。
- 05讯飞自2012年起服务广东中高考英语听说考试,积累了机器评测结果与人工评分的对齐数据,持续14年,并跟踪高考评分标准演变。
- 06讯飞将教师评判答案的思考路径结构化,形成「教学思维链」驱动的大模型,使模型学习评判标准本身,而非死记硬背答案。
- 07讯飞的落地策略是软硬件一体化(同窗AI黑板、星火智能批阅机、AI学习机),通过自研硬件控制数据入口,形成“数据→模型→产品→数据”的闭环。
反方 / 局限
- — 文章承认,高考是一次性的结构化任务,其成功不等于在复杂、持续、情境化的日常教学中能稳定运行,后者涉及教师习惯、学生差异等大量非技术变量。
- — 文章隐含地承认,其优势基于长期、独家的场景数据,这意味着其他竞争者在短期内难以复制,但也暗示了讯飞若脱离自身数据积累优势,其通用能力可能并非绝对领先。
8 分钟 · 3 卡片 · 9 资料
读原文 →