英伟达MoE新开源：一行import，微调加速3.7倍

5.5

深览指数

科技量子位·3小时前·AI 生成

英伟达MoE新开源：一行import，微调加速3.7倍

英伟达开源 NeMo AutoModel，在 Hugging Face Transformers v5 基础上集成专家并行、DeepEP 和 TransformerEngine，使 MoE 模型微调吞吐量提升 3.4-3.7 倍、显存占用降低 29%-32%。用户只需添加一行 import 代码即可在 Qwen3-30B 等模型上获得加速。本文适合关注大模型训练效率的工程师和研究员在工具选型时参考。原文 ↗原文 ↗

核心观点

▍英伟达 NeMo AutoModel 在 Hugging Face Transformers v5 API 兼容基础上，通过专家并行、DeepEP 和 TransformerEngine 三项技术集成，使 MoE 微调吞吐量提升 3.4-3.7 倍、显存占用降低 29%-32%。
▍用户只需在原有 Transformers v5 代码中添加一行 import 即可获得该加速效果，无需大幅改动代码。

01在单节点 8xH100 80GB GPU 上，Qwen3-30B-A3B 模型的每 GPU 吞吐量 (TPS/GPU) 从 3075 提升至 11340，提升 3.69 倍。
02专家并行技术将专家权重分布至多张 GPU，8 张 GPU 上 ep_size=8 时每张 GPU 的 MoE 内存占用降至 1/8。
03DeepEP 将 token 分发和组合操作整合进优化的 GPU 内核，实现通信与计算重叠。
04TransformerEngine 内核提供融合注意力、线性层和 RMSNorm 等加速实现，可加速普通 Transformer 层。
05对于 Qwen3，实验显示峰值内存从 68.2 GiB 降至 48.1 GiB，降幅 29%。
06对于 Nemotron Nanomo 模型，内存占用从 62.1 GiB 降至 42.5 GiB，降幅 32%。
07英伟达展示了 Nemotron 3 Ultra 550B A55B 在 16 个 H100 节点、128 张 GPU 上的全参数微调结果，TPS/GPU 为 815，TFLOP/s/GPU 约为 293，峰值内存为 58.2 GiB。

反方 / 局限

— 英伟达并未针对 Nemotron 3 Ultra 550B 提供与 Transformers v5 的对比数据，原因是 Transformers v5 在这种规模下会直接撑爆内存。

英伟达 NeMo AutoModel Hugging Face Transformers v5 专家并行 DeepEP TransformerEngine Qwen3-30B-A3B Nemotron 3 Nano 30B-A3B Nemotron 3 Ultra 550B A55B

6 分钟 · 4 卡片 · 8 资料

读原文 →

英伟达MoE新开源：一行import，微调加速3.7倍

前置背景

技术原理

平行视角

未来推演