5.5
深览指数
科技量子位··AI 生成
英伟达MoE新开源:一行import,微调加速3.7倍
英伟达开源 NeMo AutoModel,在 Hugging Face Transformers v5 基础上集成专家并行、DeepEP 和 TransformerEngine,使 MoE 模型微调吞吐量提升 3.4-3.7 倍、显存占用降低 29%-32%。用户只需添加一行 import 代码即可在 Qwen3-30B 等模型上获得加速。本文适合关注大模型训练效率的工程师和研究员在工具选型时参考。原文 ↗
核心观点
- ▍英伟达 NeMo AutoModel 在 Hugging Face Transformers v5 API 兼容基础上,通过专家并行、DeepEP 和 TransformerEngine 三项技术集成,使 MoE 微调吞吐量提升 3.4-3.7 倍、显存占用降低 29%-32%。
- ▍用户只需在原有 Transformers v5 代码中添加一行 import 即可获得该加速效果,无需大幅改动代码。
- 01在单节点 8xH100 80GB GPU 上,Qwen3-30B-A3B 模型的每 GPU 吞吐量 (TPS/GPU) 从 3075 提升至 11340,提升 3.69 倍。
- 02专家并行技术将专家权重分布至多张 GPU,8 张 GPU 上 ep_size=8 时每张 GPU 的 MoE 内存占用降至 1/8。
- 03DeepEP 将 token 分发和组合操作整合进优化的 GPU 内核,实现通信与计算重叠。
- 04TransformerEngine 内核提供融合注意力、线性层和 RMSNorm 等加速实现,可加速普通 Transformer 层。
- 05对于 Qwen3,实验显示峰值内存从 68.2 GiB 降至 48.1 GiB,降幅 29%。
- 06对于 Nemotron Nanomo 模型,内存占用从 62.1 GiB 降至 42.5 GiB,降幅 32%。
- 07英伟达展示了 Nemotron 3 Ultra 550B A55B 在 16 个 H100 节点、128 张 GPU 上的全参数微调结果,TPS/GPU 为 815,TFLOP/s/GPU 约为 293,峰值内存为 58.2 GiB。
反方 / 局限
- — 英伟达并未针对 Nemotron 3 Ultra 550B 提供与 Transformers v5 的对比数据,原因是 Transformers v5 在这种规模下会直接撑爆内存。
英伟达NeMo AutoModelHugging Face Transformers v5专家并行DeepEPTransformerEngineQwen3-30B-A3BNemotron 3 Nano 30B-A3BNemotron 3 Ultra 550B A55B
6 分钟 · 4 卡片 · 8 资料
读原文 →