国产AI高考708分，这款模型靠什么成为「屏蔽生」？

6.5

深览指数

产品腾讯新闻·机器之心·昨天 14:58·AI 生成

国产AI高考708分，这款模型靠什么成为「屏蔽生」？

多家媒体对主流大模型进行了2026年高考全科及单科测试，讯飞星火X2在物理类和历史类总分中均获得708分，位列第一梯队，且在数学、语文作文等单科测试中表现突出。文章分析指出，其优势并非来自单一学科的极限能力，而在于各学科的均衡稳定，以及解题步骤的规范性。核心原因被归结为科大讯飞深耕教育22年积累的独家教学数据（学生作答过程、教师评分标准等），以及据此训练的「教学思维链」，使模型学会了评判标准而非仅知识本身。适合关注AI产品能力测评、教育科技竞争格局的读者。原文 ↗原文 ↗

核心观点

▍讯飞星火X2在高考评测中领先的核心，不是单科极限能力，而是各学科表现的均衡性，以及对考试评分标准（过程规范性）的准确理解，这源于其独有的教育场景数据积累。
▍在教育AI的竞争中，技术壁垒正从模型答题能力，转向产品能否真正嵌入教学流程、形成使用习惯并积累场景数据，而数据积累比模型参数规模更具决定性。

01羊城晚报评测中，讯飞星火X2物理类总分708分，与Claude Opus 4.8并列第一；历史类总分突破700分，为唯一达到该水平的模型。
02新京报测试中，讯飞星火在2026年新高考I卷数学题中获得148分，高于Kimi（145分）和DeepSeek（144分）。澎湃新闻测评中，星火语文作文得分65.5分，位列第一。
03部分大模型在数学解题中出现步骤跳跃或引入超纲解法，会因过程不规范被扣分；讯飞星火X2的解题步骤更规范，在几何题中展现了数形结合能力。
04科大讯飞从2004年布局教育，其AI技术已深度应用于全国6万余所小学和中学，积累了高标注密度的学情数据（如学生分步作答过程、教师批注）。
05讯飞自2012年起服务广东中高考英语听说考试，积累了机器评测结果与人工评分的对齐数据，持续14年，并跟踪高考评分标准演变。
06讯飞将教师评判答案的思考路径结构化，形成「教学思维链」驱动的大模型，使模型学习评判标准本身，而非死记硬背答案。
07讯飞的落地策略是软硬件一体化（同窗AI黑板、星火智能批阅机、AI学习机），通过自研硬件控制数据入口，形成“数据→模型→产品→数据”的闭环。

反方 / 局限

— 文章承认，高考是一次性的结构化任务，其成功不等于在复杂、持续、情境化的日常教学中能稳定运行，后者涉及教师习惯、学生差异等大量非技术变量。
— 文章隐含地承认，其优势基于长期、独家的场景数据，这意味着其他竞争者在短期内难以复制，但也暗示了讯飞若脱离自身数据积累优势，其通用能力可能并非绝对领先。

讯飞星火X2 教学思维链科大讯飞同窗AI黑板星火智能批阅机羊城晚报教育发展研究院新京报澎湃新闻 Claude Opus 4.8 ChatGPT 5.5 Pro AI学习机

8 分钟 · 3 卡片 · 9 资料

读原文 →

国产AI高考708分，这款模型靠什么成为「屏蔽生」？

前置背景

功能拆解

平行视角