一颗折腾了十年的芯片

8.7

深览指数

科技虎嗅·AI超维度·10小时前·AI 生成

一颗折腾了十年的芯片

英伟达在2026年台北电脑展上发布了新一代AI服务器平台Vera Rubin，其核心架构变化并非GPU本身的升级，而是引入了一颗合作方Groq的专用推理芯片LPU。文章详细拆解了GPU在大模型推理（尤其是Decode阶段）的架构瓶颈，以及英伟达如何通过收购并整合Groq，用基于SRAM的LPU芯片与GPU配合，实现了推理效率的大幅提升。深入分析了这一架构变革背后的技术逻辑、供应链考量（避开HBM、台积电、CoWoS瓶颈），并提及OpenAI与Cerebras的同类动作，揭示了AI芯片行业从“唯算力论”转向“推理效率与架构分工”的新趋势。适合对AI芯片底层架构、数据中心基建和英伟达战略有深入了解需求的读者。

核心观点

▍英伟达Vera Rubin平台的核心变化不是GPU本身，而是首次在机柜内引入一颗专用推理芯片（Groq的LPU），标志着AI芯片从通用GPU主导走向“GPU+专用芯片”的异构分工时代，以解决大模型推理中GPU架构的根本性错配。
▍大模型推理的瓶颈已从“算力”转向“延迟”，尤其是生成阶段的“数据搬运”速度。Groq的LPU通过片上SRAM和确定性架构，提供了GPU难以企及的极低延迟和可预测性，完美匹配新兴的Agentic AI场景。

01大模型推理分为Prefill（并行处理输入）和Decode（逐字生成输出）两个阶段。GPU在Prefill阶段利用率可达90%以上，但在低批次交互的Decode阶段骤降至20-40%。
02GPU架构为“大量计算、少量数据搬运”而生，而Decode阶段是“少量计算、大量数据搬运”，导致计算核心大面积空转等待显存数据。英伟达前Groq首席技术官Mark Heaps指出，GPU的多核架构需要指令发往片外内存再返回，数据往返是瓶颈。
03AI GPU的生产受制于HBM（三星、SK海力士、美光）、台积电先进制程和CoWoS封装三重紧缺。LP30芯片采用三星SF4工艺，使用标准SRAM取代HBM，无需CoWoS封装，实现了与GPU产能完全脱钩的独立供应链。
04英伟达的AFD（Attention-FFN Disaggregation）架构将大模型每一层的计算拆开：有状态的Attention计算交给容量大的GPU；无状态的FFN计算交给延迟低且确定性强的LPU。Token在GPU和LPU之间“乒乓”式传递，通过软件隐藏通信延迟。
05LP30芯片面积的一半是500MB片上SRAM，单颗算力1.2 PFLOPS（FP8），远低于Rubin GPU（35 PFLOPS FP4）。但其竞争维度是延迟与确定性，256颗组成的LPX机柜提供40PB/s片上带宽，且编译时已定死执行路径，无运行时调度。
06英伟达声称，在万亿参数模型场景下，搭配LPU使用后，每兆瓦推理吞吐量提升35倍，每Token成本降低10倍。
072025年平安夜，英伟达以200亿美元签下Groq的技术和核心团队。此前Groq第二代LPU因芯片互联问题无法量产，在英伟达工程资源的帮助下得以修复，第三代LP30直接量产。
082026年1月，在英伟达收购Groq仅三周后，OpenAI与Cerebras签下了超过100亿美元的推理算力合同，投资并使用其晶圆级芯片（WSE）来解决GPU在推理中的短板。

反方 / 局限

— LP30的纯增量产能优势（不争夺台积电/HBM/CoWoS）是暂时的。再下一代的LP40计划回归台积电并采用新型存储，届时将与GPU供应链产生竞争。
— AFD架构下，每生成一个Token需要模型层数倍的GPU-LPU往返（如40层模型需40次），虽然可通过软件重叠优化，但复杂的系统管理和跨芯片协调仍是潜在的工程挑战和延迟隐患。

英伟达黄仁勋GroqJonathan RossLPU (Language Processing Unit)Vera RubinLP30Prell / DecodeKV cacheAFD (Attention-FFN Disaggregation)SRAMHBM (High Bandwidth Memory)CoWoSCerebrasOpenAIAgentic AI

12 分钟 · 4 卡片 · 12 资料

读原文 →

一颗折腾了十年的芯片

前置背景

平行视角

未来推演

延伸追问