科技 量子位 · 昨天 21:07 · AI 生成
中国信通院发布AI Infra运维领域首个评测基准 中国信通院联合无问芯穹、清华大学发布 AISHPerf 3.0,包含两项 AI Infra 评测基准:智算运维智能体与算子生成智能体。其中运维基准基于近百亿条真实运维数据,覆盖 5 种国产芯片,考核智能体在实际环境中的自主排故修复能力,从“知识问答”转向“实战操练”,旨在为国产智算集群从“能用”到“好用”提供统一的标准化评估标尺。原文 ↗ 原文 ↗
核心观点
▍ 中国信通院发布了 AI Infra 领域首个智算运维智能体评测基准 AISHPerf-智算运维智能体评测基准,旨在将智能体评估从语言问答能力(笔试)转向真实生产环境的问题解决能力(实战),为国产智算集群运维建立标准化体系。 01 该基准以无问芯穹沉淀的近百亿条真实运维数据为基础,提炼出 103 条高保真评测用例。 02 评测体系覆盖 5 大技术栈、44 种问题现象、22 个细分故障领域、3 种难度层级,并首次纳入 5 种国产芯片(天数、壁仞、沐曦、摩尔、昇腾)的特定运维场景。 03 评测流程中不指定故障根因,仅提供真实环境与有限描述,要求智能体自主探索、排查和修复,从时延、Token消耗、工具调用效率等维度量化评分。 04 无问芯穹已在业务中部署运维智能体,使工单平均处理时间缩短 50%,关键故障处理效率提升约 6 倍,综合运维成本下降约 30%。 05 该基准由工业和信息化部人工智能标准化技术委员会指导,中国信通院主导,无问芯穹与清华大学提供技术支持。 06 IDC 数据显示,2025 年中国市场 AI 加速卡国产化率已突破四成,国产 GPU 集群快速扩容,但运维复杂度成为核心瓶颈。 反方 / 局限
— 文章未提及该基准在评测范围之外的局限,如对特殊场景(网络攻击、大规模断电)的覆盖、不同集群规模下结果的可重复性,以及标准与实际商业采购决策之间的关联度。
前置背景 百亿真实运维数据从何而来
AISHPerf 3.0 底座的「近百亿条真实运维数据」并非一次性采集,而是无问芯穹运营训推业务数年的沉淀。无问芯穹在 2025 年已率先部署运维智能体,将工单平均处理时间缩短 50%,关键故障处理效率提升约 6 倍,综合运维成本下降约 30%。这些实战成果反过来又产生了海量优质数据,形成「数据→模型→效率提升→更多数据」的正循环。基准背后的数据工厂,其实就是无问芯穹自己跑出来的生产日志。
▸ 2 条关联资料
▼
平行视角 MLPerf 与 AISHPerf 的路线之争
全球最权威的 AI 硬件基准 MLPerf 侧重单卡/集群的吞吐量、延迟、能效等理论指标;而 AISHPerf 3.0 直接考核智能体在真实集群中的自主排故修复能力。MLPerf 回答「这硬件跑多快」,AISHPerf 回答「这智能体能扛事吗」。二者并不对立:MLPerf 是硬件选型的尺子,AISHPerf 是运维智力的尺子。对于万卡集群运营商,后者可能更贴近每天的运维痛点——毕竟硬件再快,断训一分钟损失几十个小时。
▸ 2 条关联资料
▼
争议局限 国产集群的运维瓶颈到底在哪
国产芯片虽在单卡算力上追平国际旗舰,但超大规模集群的稳定性仍是硬骨头:行业数据显示国产 GPU 故障率远高于传统 IT 设备,万卡规模下故障每天都在发生。上海智算科技团队曾为将调度精度控到「毫米级」驻守机房 79 天,行业需突破「分钟级故障定位+5 分钟恢复」的运维瓶颈。AISHPerf 的 103 条用例中大量覆盖国产 GPU 的硬件故障、驱动适配、通信协议等典型痛点,恰恰说明这些不是理论假设,而是每天都在发生的工程现实。
▸ 3 条关联资料
▼
延伸追问 从「能用」到「好用」还有多远
国产芯片从「能跑」到「高效稳产」,中间隔的不是算力数字,而是运维智能体能否在故障发生时自主定位并修复。AISHPerf 用 5 种国产芯片覆盖 22 个故障领域,但当前仅 103 条测例——真实集群每天可能冒出成百上千种新故障模式。真正值得追问的是:这个基准能否持续吸收大模型训推中涌现的新故障类型?它会不会像 MLPerf 那样形成「跑榜」文化,反而让智能体只顾优化测例而忽略生产中的长尾风险?
▸ 0 条关联资料
▼