7.7
深览指数
科技腾讯新闻·半导体行业观察··AI 生成
我们还需要GPU吗?
文章核心回答是:对于许多AI和科学计算工作负载,配备SVE/SME、HBM和矩阵引擎的现代CPU可能不再需要GPU。作者通过架构论证和实证研究(基于A64FX和LX2两款Arm CPU对万亿参数模型的长上下文推理测试)表明,CPU在解码阶段已具备竞争力,预填充阶段矩阵引擎也达到要求。文章立场并非否定GPU,而是揭示CPU融合加速特性后带来的新可能性,尤其对AI+HPC融合工作流有利。适合关注芯片架构演进、超算系统设计的科技从业者阅读。原文 ↗
核心观点
- ▍如果CPU集成宽向量单元、矩阵乘法引擎(如SME/AMX)、封装内HBM和原生混合精度支持,那么对于多数AI推理和科学计算工作负载,GPU不再是必需品,CPU可提供更简单、统一且高效的基础。
- 01生成式推理的解码阶段约80%受限于内存带宽,而非算力。研究显示,约48个A64FX节点(无矩阵引擎)可提供与GB200 NVL4 GPU节点相当的K2-256K解码吞吐量,证明CPU带宽维度已达标。
- 02预填充阶段依赖矩阵引擎。A64FX相比顶级GPU落后约47倍,但配备SME的LX2(240 TF BF16)已超过实现平衡所需的80 TF/节点网关,矩阵引擎维度根据规格也已达标(待实测验证)。
- 03CPU可通过选择并行化策略适应不同互连架构:在环形互连(如Tofu-D)上采用流水线并行可规避集体通信瓶颈;在以太网级架构(如LX2)上则可直接使用张量并行。
- 04全CPU机器的单用户能耗约为最新GPU集群的1.75-2.7倍,但主要来自使用旧代HBM2内存和缺失FP8路径,属于代际差距而非架构问题,下一代CPU可大幅缩小差距。
- 05CPU的混合精度原生支持(FP64到FP4)和统一内存模型,对融合AI+HPC的工作流(如模拟+优化+机器学习)具有编程简化优势,减少跨加速器数据移动的延迟和能耗。
反方 / 局限
- — GPU对前沿规模的大模型训练仍至关重要,因为其密集张量吞吐量、能效和成熟的软件生态是当前CPU难以替代的。
- — CPU的软件栈成熟度(编译器、内核、运行时)相比GPU库(如CUDA生态)仍有显著差距,这是最大的非硬件短板。
- — 当前CPU对FP8支持缺失,且低精度矩阵乘法作为通用原语(如用低精度引擎加速高精度运算)仍属研究假设,未被验证。
- — LX2的预填充性能数据是根据已公布规格的预测值,而非实际测量结果,存在不确定性。
Jack DongarraTorsten HoeflerSatoshi Matsuoka田纳西大学橡树岭国家实验室苏黎世 ETC理研实验室东京工业大学ACMLineShineA64FXLX2FugakuSVESMEAVXAMXHBMTop500Kimi-K2
23 分钟 · 4 卡片 · 9 资料
读原文 →