谷歌开源DiffusionGemma，自送差评，速度却快4倍

7.7

深览指数

科技腾讯新闻·昨天 13:04·AI 生成

谷歌开源DiffusionGemma，自送差评，速度却快4倍

谷歌开源了实验性文本扩散模型DiffusionGemma，其采用并行生成整段文本的扩散机制，在单张H100上实现了超1000 tokens/s的生成速度，最高比自家自回归模型快4倍，但多项质量基准全面落后于Gemma 4。文章详细拆解了扩散模型在GPU利用效率上的优势（从内存瓶颈转为计算瓶颈），以及双向注意力带来的自我修正能力，并指出这是当下扩散模型路线的共性取舍。适合关注模型架构创新、AI推理效率优化及开源生态的深度读者，了解在什么场景下“更快”比“更好”更有价值。原文 ↗原文 ↗

核心观点

▍DiffusionGemma的核心价值在于探索一种非自回归的文本生成路径，通过离散文本扩散实现速度的跃升，但其定位是专注于速度的实验性模型，而非高质量生产级模型的替代品。
▍在本地、单用户、请求不多的场景下，DiffusionGemma的吞吐优势巨大，但在云端高并发场景下，其单位成本甚至高于自回归模型。

01DiffusionGemma采用256个token的并行去噪方式，而非逐词元预测，单张NVIDIA H100上生成速度突破1000 tokens/s，最高比Gemma 4快4倍。
02其底子是Gemma 4的26B A4B混合专家架构，总参数约252亿，推理时只激活约38亿，量化后仅占约18GB显存，可在RTX 5090等消费级显卡上本地运行。
03并行去噪带来双向注意力，模型能实时自我修正，比如一次性闭合复杂的Markdown格式，避免逐字模型出现的括号不匹配问题。
04在基准测试中，DiffusionGemma的质量表现全面落后于Gemma 4，其中数学（AIME 2026）差距接近20个百分点，多模态（MMMU Pro）也低了近20个点。
05扩散模型将任务从内存带宽瓶颈转变为计算瓶颈，能更好地喂饱GPU的张量核心，这是其加速的根本原因。
06在数独这类前后强约束的“非线性”任务上，双向注意力使微调后的DiffusionGemma正确率从约0%拉到80%。
07Inception Labs的Mercury系列等商用扩散大模型也表现出“质量主动让步”的共性，这是当前扩散路线的共同特点。
08DiffusionGemma是首个集前沿实验室出品、开源权重、消费级显卡本地运行三大要素于一体的开源扩散大模型。

反方 / 局限

— 谷歌官方承认DiffusionGemma在高质量生产级输出上不如Gemma 4，多位基准测试也证实了其质量上的明显差距。
— 高性价比优势仅适用于本地单用户场景，在云端高并发场景下，其单位成本甚至高于自回归模型，适用范围有限。

DiffusionGemmaGemma 4文本扩散双向注意力混合专家（MoE）架构Google DeepMindNVIDIA H100Inception LabsMercury（模型）Sundar PichaiHugging FaceApache 2.0

11 分钟 · 3 卡片 · 9 资料

读原文 →

谷歌开源DiffusionGemma，自送差评，速度却快4倍

前置背景

平行视角

延伸追问