8.7
深览指数
科技虎嗅·AI超维度··AI 生成
一颗折腾了十年的芯片
英伟达在2026年台北电脑展上发布了新一代AI服务器平台Vera Rubin,其核心架构变化并非GPU本身的升级,而是引入了一颗合作方Groq的专用推理芯片LPU。文章详细拆解了GPU在大模型推理(尤其是Decode阶段)的架构瓶颈,以及英伟达如何通过收购并整合Groq,用基于SRAM的LPU芯片与GPU配合,实现了推理效率的大幅提升。深入分析了这一架构变革背后的技术逻辑、供应链考量(避开HBM、台积电、CoWoS瓶颈),并提及OpenAI与Cerebras的同类动作,揭示了AI芯片行业从“唯算力论”转向“推理效率与架构分工”的新趋势。适合对AI芯片底层架构、数据中心基建和英伟达战略有深入了解需求的读者。
核心观点
- ▍英伟达Vera Rubin平台的核心变化不是GPU本身,而是首次在机柜内引入一颗专用推理芯片(Groq的LPU),标志着AI芯片从通用GPU主导走向“GPU+专用芯片”的异构分工时代,以解决大模型推理中GPU架构的根本性错配。
- ▍大模型推理的瓶颈已从“算力”转向“延迟”,尤其是生成阶段的“数据搬运”速度。Groq的LPU通过片上SRAM和确定性架构,提供了GPU难以企及的极低延迟和可预测性,完美匹配新兴的Agentic AI场景。
- 01大模型推理分为Prefill(并行处理输入)和Decode(逐字生成输出)两个阶段。GPU在Prefill阶段利用率可达90%以上,但在低批次交互的Decode阶段骤降至20-40%。
- 02GPU架构为“大量计算、少量数据搬运”而生,而Decode阶段是“少量计算、大量数据搬运”,导致计算核心大面积空转等待显存数据。英伟达前Groq首席技术官Mark Heaps指出,GPU的多核架构需要指令发往片外内存再返回,数据往返是瓶颈。
- 03AI GPU的生产受制于HBM(三星、SK海力士、美光)、台积电先进制程和CoWoS封装三重紧缺。LP30芯片采用三星SF4工艺,使用标准SRAM取代HBM,无需CoWoS封装,实现了与GPU产能完全脱钩的独立供应链。
- 04英伟达的AFD(Attention-FFN Disaggregation)架构将大模型每一层的计算拆开:有状态的Attention计算交给容量大的GPU;无状态的FFN计算交给延迟低且确定性强的LPU。Token在GPU和LPU之间“乒乓”式传递,通过软件隐藏通信延迟。
- 05LP30芯片面积的一半是500MB片上SRAM,单颗算力1.2 PFLOPS(FP8),远低于Rubin GPU(35 PFLOPS FP4)。但其竞争维度是延迟与确定性,256颗组成的LPX机柜提供40PB/s片上带宽,且编译时已定死执行路径,无运行时调度。
- 06英伟达声称,在万亿参数模型场景下,搭配LPU使用后,每兆瓦推理吞吐量提升35倍,每Token成本降低10倍。
- 072025年平安夜,英伟达以200亿美元签下Groq的技术和核心团队。此前Groq第二代LPU因芯片互联问题无法量产,在英伟达工程资源的帮助下得以修复,第三代LP30直接量产。
- 082026年1月,在英伟达收购Groq仅三周后,OpenAI与Cerebras签下了超过100亿美元的推理算力合同,投资并使用其晶圆级芯片(WSE)来解决GPU在推理中的短板。
反方 / 局限
- — LP30的纯增量产能优势(不争夺台积电/HBM/CoWoS)是暂时的。再下一代的LP40计划回归台积电并采用新型存储,届时将与GPU供应链产生竞争。
- — AFD架构下,每生成一个Token需要模型层数倍的GPU-LPU往返(如40层模型需40次),虽然可通过软件重叠优化,但复杂的系统管理和跨芯片协调仍是潜在的工程挑战和延迟隐患。
英伟达黄仁勋GroqJonathan RossLPU (Language Processing Unit)Vera RubinLP30Prell / DecodeKV cacheAFD (Attention-FFN Disaggregation)SRAMHBM (High Bandwidth Memory)CoWoSCerebrasOpenAIAgentic AI
12 分钟 · 4 卡片 · 12 资料
读原文 →