都在说缺算力，90%的AI芯片却被“浪费”了？

7.7

深览指数

科技虎嗅·极客公园·5小时前·AI 生成

都在说缺算力，90%的AI芯片却被“浪费”了？

文章指出，当前AI行业存在一个结构性矛盾：一方面企业和团队普遍抱怨算力紧缺，另一方面大量高性能GPU（如H100）的利用率极低，甚至不到10%。作者通过引用Epoch AI、Fujitsu、VentureBeat等机构的数据，将这种现象与2000年电信行业的"暗光纤"泡沫类比，认为问题的核心不在于算力总量，而在于从数据准备、存储IO到分布式系统协同等一系列基础设施瓶颈，导致GPU在大量时间处于等待或空转状态。文章的核心贡献在于揭示了行业叙事与工程现实之间的深刻断裂，并提出了从"规模竞赛"转向"效率竞赛"的范式转换，即提升算力利用率（MFU）才是当前更可行的突破方向。适合对AI产业底层逻辑、基础设施成本结构感兴趣的深度读者，尤其是从事技术决策或投资分析的人士。原文 ↗原文 ↗

核心观点

▍AI行业存在严重的算力利用率低下问题（部分前沿实验室GPU利用率可能低于10%），这是一个结构性、非技术性的行业秘密，而非简单的需求不足。算力竞赛的护城河正从‘谁能买到更多算力’转向‘谁能从同样算力中榨取更多智能’。

01Epoch AI估算，到2025年底OpenAI等效算力约170万块H100，但加州大学计算机科学家Anjney Midha指出，像xAI这样的前沿实验室，GPU利用率可能不到10%。
02Epoch AI分析师Josh You的报告指出，‘前沿实验室尚未使用大部分AI算力’，算力采购速度远超消耗速度。
03Fujitsu《AI基础设施状态报告》显示，超过75%的企业在峰值负载下GPU利用率仍低于70%。VentureBeat进一步判断‘95%的AI基础设施开支被浪费了’。
04aixenergy研究揭示，在AI训练过程中，GPU有30%至65%的时间处于闲置状态，原因是数据预处理和存储IO速度跟不上GPU的计算速度（‘数据饥饿’问题）。
05arXiv上关于GPU能耗的论文指出，即使GPU进入‘深层空闲状态’仍在大量耗电，且行业通用的‘集群级SM利用率’指标不能反映真实能效，因为许多计算周期在做‘假工作’（数据搬运、内存同步等）。

反方 / 局限

— 文章类比了2000年电信行业的‘暗光纤’泡沫（95%光纤未使用），并指出当前情况与历史上的技术泡沫相似，暗示算力浪费可能最终会由资本泡沫破裂来进行残酷的清算，这是作者隐含的、对当前叙事可能不稳定的警示。
— 将GPU利用率提升到60%-70%是‘最佳实践者’的上限，而非普适目标。文章承认，对于许多企业而言，解决数据准备、存储架构和分布式系统工程等根本性问题的成本可能也极其高昂，这是从‘闲置’到‘高效’之间的现实阻力，文章未深入讨论实施路径的艰难。

H100 GPU MFU Epoch AI AMP (AI基础设施公司)Anjney Midha Fujitsu VentureBeat Latent Space (播客)

10 分钟 · 4 卡片 · 10 资料

读原文 →

都在说缺算力，90%的AI芯片却被“浪费”了？

概念锚点

前置背景

平行视角

延伸追问