中国信通院发布AI Infra运维领域首个评测基准

5.9

深览指数

科技量子位·昨天 21:07·AI 生成

中国信通院发布AI Infra运维领域首个评测基准

中国信通院联合无问芯穹、清华大学发布 AISHPerf 3.0，包含两项 AI Infra 评测基准：智算运维智能体与算子生成智能体。其中运维基准基于近百亿条真实运维数据，覆盖 5 种国产芯片，考核智能体在实际环境中的自主排故修复能力，从“知识问答”转向“实战操练”，旨在为国产智算集群从“能用”到“好用”提供统一的标准化评估标尺。原文 ↗原文 ↗

核心观点

▍中国信通院发布了 AI Infra 领域首个智算运维智能体评测基准 AISHPerf-智算运维智能体评测基准，旨在将智能体评估从语言问答能力（笔试）转向真实生产环境的问题解决能力（实战），为国产智算集群运维建立标准化体系。

01该基准以无问芯穹沉淀的近百亿条真实运维数据为基础，提炼出 103 条高保真评测用例。
02评测体系覆盖 5 大技术栈、44 种问题现象、22 个细分故障领域、3 种难度层级，并首次纳入 5 种国产芯片（天数、壁仞、沐曦、摩尔、昇腾）的特定运维场景。
03评测流程中不指定故障根因，仅提供真实环境与有限描述，要求智能体自主探索、排查和修复，从时延、Token消耗、工具调用效率等维度量化评分。
04无问芯穹已在业务中部署运维智能体，使工单平均处理时间缩短 50%，关键故障处理效率提升约 6 倍，综合运维成本下降约 30%。
05该基准由工业和信息化部人工智能标准化技术委员会指导，中国信通院主导，无问芯穹与清华大学提供技术支持。
06IDC 数据显示，2025 年中国市场 AI 加速卡国产化率已突破四成，国产 GPU 集群快速扩容，但运维复杂度成为核心瓶颈。

反方 / 局限

— 文章未提及该基准在评测范围之外的局限，如对特殊场景（网络攻击、大规模断电）的覆盖、不同集群规模下结果的可重复性，以及标准与实际商业采购决策之间的关联度。

中国信通院无问芯穹清华大学 AISHPerf 智算运维智能体评测基准算子生成智能体评测基准天数智芯壁仞科技沐曦集成电路摩尔线程华为昇腾 AI Infra 魏亮

8 分钟 · 4 卡片 · 7 资料

读原文 →

中国信通院发布AI Infra运维领域首个评测基准

前置背景

平行视角

争议局限

延伸追问