7.7
深览指数
科技虎嗅·极客公园··AI 生成
都在说缺算力,90%的AI芯片却被“浪费”了?
文章指出,当前AI行业存在一个结构性矛盾:一方面企业和团队普遍抱怨算力紧缺,另一方面大量高性能GPU(如H100)的利用率极低,甚至不到10%。作者通过引用Epoch AI、Fujitsu、VentureBeat等机构的数据,将这种现象与2000年电信行业的"暗光纤"泡沫类比,认为问题的核心不在于算力总量,而在于从数据准备、存储IO到分布式系统协同等一系列基础设施瓶颈,导致GPU在大量时间处于等待或空转状态。文章的核心贡献在于揭示了行业叙事与工程现实之间的深刻断裂,并提出了从"规模竞赛"转向"效率竞赛"的范式转换,即提升算力利用率(MFU)才是当前更可行的突破方向。适合对AI产业底层逻辑、基础设施成本结构感兴趣的深度读者,尤其是从事技术决策或投资分析的人士。原文 ↗
核心观点
- ▍AI行业存在严重的算力利用率低下问题(部分前沿实验室GPU利用率可能低于10%),这是一个结构性、非技术性的行业秘密,而非简单的需求不足。算力竞赛的护城河正从‘谁能买到更多算力’转向‘谁能从同样算力中榨取更多智能’。
- 01Epoch AI估算,到2025年底OpenAI等效算力约170万块H100,但加州大学计算机科学家Anjney Midha指出,像xAI这样的前沿实验室,GPU利用率可能不到10%。
- 02Epoch AI分析师Josh You的报告指出,‘前沿实验室尚未使用大部分AI算力’,算力采购速度远超消耗速度。
- 03Fujitsu《AI基础设施状态报告》显示,超过75%的企业在峰值负载下GPU利用率仍低于70%。VentureBeat进一步判断‘95%的AI基础设施开支被浪费了’。
- 04aixenergy研究揭示,在AI训练过程中,GPU有30%至65%的时间处于闲置状态,原因是数据预处理和存储IO速度跟不上GPU的计算速度(‘数据饥饿’问题)。
- 05arXiv上关于GPU能耗的论文指出,即使GPU进入‘深层空闲状态’仍在大量耗电,且行业通用的‘集群级SM利用率’指标不能反映真实能效,因为许多计算周期在做‘假工作’(数据搬运、内存同步等)。
反方 / 局限
- — 文章类比了2000年电信行业的‘暗光纤’泡沫(95%光纤未使用),并指出当前情况与历史上的技术泡沫相似,暗示算力浪费可能最终会由资本泡沫破裂来进行残酷的清算,这是作者隐含的、对当前叙事可能不稳定的警示。
- — 将GPU利用率提升到60%-70%是‘最佳实践者’的上限,而非普适目标。文章承认,对于许多企业而言,解决数据准备、存储架构和分布式系统工程等根本性问题的成本可能也极其高昂,这是从‘闲置’到‘高效’之间的现实阻力,文章未深入讨论实施路径的艰难。
10 分钟 · 4 卡片 · 10 资料
读原文 →