5.9
深览指数
科技量子位··AI 生成

中国信通院发布AI Infra运维领域首个评测基准

中国信通院联合无问芯穹、清华大学发布 AISHPerf 3.0,包含两项 AI Infra 评测基准:智算运维智能体与算子生成智能体。其中运维基准基于近百亿条真实运维数据,覆盖 5 种国产芯片,考核智能体在实际环境中的自主排故修复能力,从“知识问答”转向“实战操练”,旨在为国产智算集群从“能用”到“好用”提供统一的标准化评估标尺。原文 ↗

核心观点
  • 中国信通院发布了 AI Infra 领域首个智算运维智能体评测基准 AISHPerf-智算运维智能体评测基准,旨在将智能体评估从语言问答能力(笔试)转向真实生产环境的问题解决能力(实战),为国产智算集群运维建立标准化体系。
  1. 01该基准以无问芯穹沉淀的近百亿条真实运维数据为基础,提炼出 103 条高保真评测用例。
  2. 02评测体系覆盖 5 大技术栈、44 种问题现象、22 个细分故障领域、3 种难度层级,并首次纳入 5 种国产芯片(天数、壁仞、沐曦、摩尔、昇腾)的特定运维场景。
  3. 03评测流程中不指定故障根因,仅提供真实环境与有限描述,要求智能体自主探索、排查和修复,从时延、Token消耗、工具调用效率等维度量化评分。
  4. 04无问芯穹已在业务中部署运维智能体,使工单平均处理时间缩短 50%,关键故障处理效率提升约 6 倍,综合运维成本下降约 30%。
  5. 05该基准由工业和信息化部人工智能标准化技术委员会指导,中国信通院主导,无问芯穹与清华大学提供技术支持。
  6. 06IDC 数据显示,2025 年中国市场 AI 加速卡国产化率已突破四成,国产 GPU 集群快速扩容,但运维复杂度成为核心瓶颈。
反方 / 局限
  • 文章未提及该基准在评测范围之外的局限,如对特殊场景(网络攻击、大规模断电)的覆盖、不同集群规模下结果的可重复性,以及标准与实际商业采购决策之间的关联度。
8 分钟 · 4 卡片 · 7 资料
读原文 →

前置背景

平行视角

争议局限

延伸追问