谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快

6.2

深览指数

科技36 氪·机器之心·6小时前·AI 生成

谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快

谷歌发布名为 DiffusionGemma 的 26B 开源扩散模型（MoE），其核心技术创新在于用并行预测整块文本替代传统自回归的逐 token 生成，在本地 GPU 上推理速度最高提升 4 倍。文章详细拆解了该模型的四种核心能力（速度、硬件门槛、双向注意力、自我修正），并明确指出了其适用场景（本地低并发、低延迟交互）与局限（输出质量低于自回归版 Gemma 4）。本文适合关注前沿 AI 模型架构、开源模型落地的开发者和产品决策者，有助于快速判断该技术是否值得跟进研究。

核心观点

▍DiffusionGemma 是一个 26B 规模的文本扩散 MoE 模型，核心卖点是并行生成整块文本，在本地 GPU 上推理速度最高可达自回归模型的 4 倍，但输出质量低于标准版 Gemma 4。

01模型采用 Apache 2.0 许可证开源，总参数量 26B，推理时仅激活 3.8B 参数，量化后可运行在 18GB 显存以内的消费级显卡上。
02在单张 NVIDIA H100 上，输出速度可达每秒 1000+ tokens；在 NVIDIA GeForce RTX 5090 上可达每秒 700+ tokens。
03模型支持双向注意力机制，每次前向计算可并行生成 256 个 token，每个 token 都能看到其他 token，适合行内编辑、代码补全、数独等非线性任务。
04模型具备自我修正能力，通过多轮迭代不断完善输出，并能一次性查看整个文本块以发现并修正错误。
05Unsloth 对 DiffusionGemma 进行微调后，使其学会了解决数独问题，展示了其对特定任务的适应能力。

反方 / 局限

— DiffusionGemma 目前仍是实验性模型，整体输出质量低于标准版 Gemma 4，对质量要求最高的场景官方仍建议使用自回归版。
— 速度优势主要面向本地低并发推理场景；在高 QPS 的云端服务中，自回归模型可通过批处理充分吃满算力，扩散模型的并行解码优势会被削弱，甚至可能带来更高成本。

DiffusionGemmaGemma 4混合专家模型文本扩散双向注意力Hugging FaceUnsloth皮查伊NVIDIA H100NVIDIA GeForce RTX 5090

7 分钟 · 5 卡片 · 12 资料

读原文 →

谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快

概念锚点

前置背景

平行视角

未来推演

延伸追问