7.7
深览指数
科技腾讯新闻··AI 生成
谷歌开源DiffusionGemma,自送差评,速度却快4倍
谷歌开源了实验性文本扩散模型DiffusionGemma,其采用并行生成整段文本的扩散机制,在单张H100上实现了超1000 tokens/s的生成速度,最高比自家自回归模型快4倍,但多项质量基准全面落后于Gemma 4。文章详细拆解了扩散模型在GPU利用效率上的优势(从内存瓶颈转为计算瓶颈),以及双向注意力带来的自我修正能力,并指出这是当下扩散模型路线的共性取舍。适合关注模型架构创新、AI推理效率优化及开源生态的深度读者,了解在什么场景下“更快”比“更好”更有价值。原文 ↗
核心观点
- ▍DiffusionGemma的核心价值在于探索一种非自回归的文本生成路径,通过离散文本扩散实现速度的跃升,但其定位是专注于速度的实验性模型,而非高质量生产级模型的替代品。
- ▍在本地、单用户、请求不多的场景下,DiffusionGemma的吞吐优势巨大,但在云端高并发场景下,其单位成本甚至高于自回归模型。
- 01DiffusionGemma采用256个token的并行去噪方式,而非逐词元预测,单张NVIDIA H100上生成速度突破1000 tokens/s,最高比Gemma 4快4倍。
- 02其底子是Gemma 4的26B A4B混合专家架构,总参数约252亿,推理时只激活约38亿,量化后仅占约18GB显存,可在RTX 5090等消费级显卡上本地运行。
- 03并行去噪带来双向注意力,模型能实时自我修正,比如一次性闭合复杂的Markdown格式,避免逐字模型出现的括号不匹配问题。
- 04在基准测试中,DiffusionGemma的质量表现全面落后于Gemma 4,其中数学(AIME 2026)差距接近20个百分点,多模态(MMMU Pro)也低了近20个点。
- 05扩散模型将任务从内存带宽瓶颈转变为计算瓶颈,能更好地喂饱GPU的张量核心,这是其加速的根本原因。
- 06在数独这类前后强约束的“非线性”任务上,双向注意力使微调后的DiffusionGemma正确率从约0%拉到80%。
- 07Inception Labs的Mercury系列等商用扩散大模型也表现出“质量主动让步”的共性,这是当前扩散路线的共同特点。
- 08DiffusionGemma是首个集前沿实验室出品、开源权重、消费级显卡本地运行三大要素于一体的开源扩散大模型。
反方 / 局限
- — 谷歌官方承认DiffusionGemma在高质量生产级输出上不如Gemma 4,多位基准测试也证实了其质量上的明显差距。
- — 高性价比优势仅适用于本地单用户场景,在云端高并发场景下,其单位成本甚至高于自回归模型,适用范围有限。
DiffusionGemmaGemma 4文本扩散双向注意力混合专家(MoE)架构Google DeepMindNVIDIA H100Inception LabsMercury(模型)Sundar PichaiHugging FaceApache 2.0
11 分钟 · 3 卡片 · 9 资料
读原文 →