我们还需要GPU吗？

7.7

深览指数

科技腾讯新闻·半导体行业观察·5小时前·AI 生成

我们还需要GPU吗？

文章核心回答是：对于许多AI和科学计算工作负载，配备SVE/SME、HBM和矩阵引擎的现代CPU可能不再需要GPU。作者通过架构论证和实证研究（基于A64FX和LX2两款Arm CPU对万亿参数模型的长上下文推理测试）表明，CPU在解码阶段已具备竞争力，预填充阶段矩阵引擎也达到要求。文章立场并非否定GPU，而是揭示CPU融合加速特性后带来的新可能性，尤其对AI+HPC融合工作流有利。适合关注芯片架构演进、超算系统设计的科技从业者阅读。原文 ↗原文 ↗

核心观点

▍如果CPU集成宽向量单元、矩阵乘法引擎（如SME/AMX）、封装内HBM和原生混合精度支持，那么对于多数AI推理和科学计算工作负载，GPU不再是必需品，CPU可提供更简单、统一且高效的基础。

01生成式推理的解码阶段约80%受限于内存带宽，而非算力。研究显示，约48个A64FX节点（无矩阵引擎）可提供与GB200 NVL4 GPU节点相当的K2-256K解码吞吐量，证明CPU带宽维度已达标。
02预填充阶段依赖矩阵引擎。A64FX相比顶级GPU落后约47倍，但配备SME的LX2（240 TF BF16）已超过实现平衡所需的80 TF/节点网关，矩阵引擎维度根据规格也已达标（待实测验证）。
03CPU可通过选择并行化策略适应不同互连架构：在环形互连（如Tofu-D）上采用流水线并行可规避集体通信瓶颈；在以太网级架构（如LX2）上则可直接使用张量并行。
04全CPU机器的单用户能耗约为最新GPU集群的1.75-2.7倍，但主要来自使用旧代HBM2内存和缺失FP8路径，属于代际差距而非架构问题，下一代CPU可大幅缩小差距。
05CPU的混合精度原生支持（FP64到FP4）和统一内存模型，对融合AI+HPC的工作流（如模拟+优化+机器学习）具有编程简化优势，减少跨加速器数据移动的延迟和能耗。

反方 / 局限

— GPU对前沿规模的大模型训练仍至关重要，因为其密集张量吞吐量、能效和成熟的软件生态是当前CPU难以替代的。
— CPU的软件栈成熟度（编译器、内核、运行时）相比GPU库（如CUDA生态）仍有显著差距，这是最大的非硬件短板。
— 当前CPU对FP8支持缺失，且低精度矩阵乘法作为通用原语（如用低精度引擎加速高精度运算）仍属研究假设，未被验证。
— LX2的预填充性能数据是根据已公布规格的预测值，而非实际测量结果，存在不确定性。

Jack Dongarra Torsten Hoefler Satoshi Matsuoka 田纳西大学橡树岭国家实验室苏黎世 ETC 理研实验室东京工业大学 ACM LineShine A64FX LX2 Fugaku SVE SME AVX AMX HBM Top500 Kimi-K2

23 分钟 · 4 卡片 · 9 资料

读原文 →

我们还需要GPU吗？

前置背景

应用场景

平行视角

延伸追问