6.2
深览指数
科技36 氪·机器之心··AI 生成

谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快

谷歌发布名为 DiffusionGemma 的 26B 开源扩散模型(MoE),其核心技术创新在于用并行预测整块文本替代传统自回归的逐 token 生成,在本地 GPU 上推理速度最高提升 4 倍。文章详细拆解了该模型的四种核心能力(速度、硬件门槛、双向注意力、自我修正),并明确指出了其适用场景(本地低并发、低延迟交互)与局限(输出质量低于自回归版 Gemma 4)。本文适合关注前沿 AI 模型架构、开源模型落地的开发者和产品决策者,有助于快速判断该技术是否值得跟进研究。

核心观点
  • DiffusionGemma 是一个 26B 规模的文本扩散 MoE 模型,核心卖点是并行生成整块文本,在本地 GPU 上推理速度最高可达自回归模型的 4 倍,但输出质量低于标准版 Gemma 4。
  1. 01模型采用 Apache 2.0 许可证开源,总参数量 26B,推理时仅激活 3.8B 参数,量化后可运行在 18GB 显存以内的消费级显卡上。
  2. 02在单张 NVIDIA H100 上,输出速度可达每秒 1000+ tokens;在 NVIDIA GeForce RTX 5090 上可达每秒 700+ tokens。
  3. 03模型支持双向注意力机制,每次前向计算可并行生成 256 个 token,每个 token 都能看到其他 token,适合行内编辑、代码补全、数独等非线性任务。
  4. 04模型具备自我修正能力,通过多轮迭代不断完善输出,并能一次性查看整个文本块以发现并修正错误。
  5. 05Unsloth 对 DiffusionGemma 进行微调后,使其学会了解决数独问题,展示了其对特定任务的适应能力。
反方 / 局限
  • DiffusionGemma 目前仍是实验性模型,整体输出质量低于标准版 Gemma 4,对质量要求最高的场景官方仍建议使用自回归版。
  • 速度优势主要面向本地低并发推理场景;在高 QPS 的云端服务中,自回归模型可通过批处理充分吃满算力,扩散模型的并行解码优势会被削弱,甚至可能带来更高成本。
DiffusionGemmaGemma 4混合专家模型文本扩散双向注意力Hugging FaceUnsloth皮查伊NVIDIA H100NVIDIA GeForce RTX 5090
7 分钟 · 5 卡片 · 12 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问