6.9
深览指数
科技量子位··AI 生成

Mythos阴影里谷歌悄悄发模型,速度暴涨4倍

谷歌发布名为DiffusionGemma的26B参数MoE扩散语言模型,颠覆传统自回归的逐Token生成方式,采用类似Stable Diffusion的整段文字同时去噪生成,推理速度达每秒1000+ tokens,是同规格自回归模型的4倍。该模型激活仅3.8B参数,经量化后可在RTX 4090上本地运行。文章详细解释了其速度优势来源于扩散模型的并行计算特性(从内存带宽瓶颈转向算力瓶颈),并指出其双向注意力机制带来了自回归模型难以做到的实时自我纠错能力。适合对NLP前沿技术路线(扩散模型 vs 自回归模型)和AI推理效率优化有深入兴趣的技术读者。

核心观点
  • 谷歌发布的DiffusionGemma模型,通过采用扩散模型方式并行生成所有token,在本地推理速度上比同规格自回归模型快4倍,单卡H100达到1000+ tokens/s。
  1. 01该模型拥有26B参数,采用MoE架构,推理时仅激活3.8B参数,量化后仅需18GB显存,可在一张RTX 4090上本地运行。
  2. 02在H100 GPU(fp8, batch size=1)上,DiffusionGemma推理速度超过1000 tokens/s,而标准自回归的Gemma 4 26B A4B加MTP加速后仅为300+ tokens/s。
  3. 03速度提升的根源在于扩散模型的工作方式:一次性对256个token的画布整体去噪,将计算瓶颈从“内存带宽”转向GPU最擅长的“算力”,充分利用了Tensor Core的并行能力。
  4. 04DiffusionGemma采用双向注意力机制,每个token在整个生成过程中都能看到所有其他token,实现了实时自我纠错。
  5. 05在数独这类“后面数字影响前面数字”的任务中,传统自回归模型成功率为0%,而DiffusionGemma微调后成功率达到80%。
  6. 06NVIDIA从RTX 4090到H100全线硬件均支持该模型,vLLM、MLX、Unsloth、NeMo等主流推理框架也已适配。模型采用Apache 2.0开源协议。
反方 / 局限
  • 在多项基准评测上,DiffusionGemma的质量与同参数量的Gemma 4 26B A4B相比确实存在差距,谷歌生产环境推荐标准Gemma 4,DiffusionGemma面向对速度敏感的本地交互场景。
  • 扩散模型在图像生成领域已经验证的“速度与质量平衡”问题同样存在于文本生成:去噪步数少则速度快但质量下降,步数多则质量好但速度优势缩小。
DiffusionGemma谷歌Gemma 4MoE自回归模型扩散模型内存带宽瓶颈双向注意力Inception LabsMercury 2NVIDIAUnslothHugging Face皮猜
8 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问