全员本科生！何恺明组新作：文生图，258M参数就够了

7.3

深览指数

科技量子位·5小时前·AI 生成

全员本科生！何恺明组新作：文生图，258M参数就够了

何恺明团队提出 MM-JiT 架构，将 JiT 的“像素空间扩散”思路扩展至文生图领域，训练仅需 8 张 H100 跑 3 天（约一次 ImageNet 实验的算力），258M 参数的 MiniT2I 模型在 GenEval 等基准上超越多数参数规模数倍的同行。文章核心贡献在于系统性地“剪枝”主流文生图管线：去掉了 VAE 编解码、AdaLN 机制等“多余”组件，论证了文本条件并不比类别条件更复杂，为学术团队提供了低成本入局文生图的技术路线。适合关注扩散模型架构极简化的研究者和对 AI 模型训练成本敏感的工程师阅读。原文 ↗原文 ↗

核心观点

▍文生图模型未必需要数十亿参数和海量数据；通过在像素空间直接生成、去除 VAE 和 AdaLN 等传统组件，258M 参数的 MiniT2I 即可达到有竞争力的效果。

01MiniT2I 完全抛弃 VAE 编解码器，直接在像素空间进行扩散生成，单次前向传播计算量从传统潜空间模型的 1379 GFLOPs 降至 265 GFLOPs，降低约 80%。
02MM-JiT 架构移除了 SD3 所用的 AdaLN 机制，仅通过联合注意力注入时间步和文本条件，参数量维持 260M，FID 从基线 18.7 提升至 13.7。
03训练流程分为两阶段：在 CC12M 上预训练 25 万步，再以 12 万张高质量合成图像微调 4 万步，总算力仅需 8 张 H100 运行约 3 天。
04B/16 版本 ( < 600M 参数 ) 在 GenEval 达到 0.87，DPG-Bench 达到 84.2，超过多款参数规模更大的像素空间文生图模型。
05在 PRISM-Bench 上，L/16 版本获得 62.4 分，逼近 FLUX.1-dev 的 68.5 分，且在风格表现和开放想象力两个子项上超过 FLUX。

反方 / 局限

— 模型在文字渲染和命名实体生成方面表现较弱，作者归因于公开训练数据覆盖范围有限。
— 文章未充分讨论 MM-JiT 在多轮复杂构图、高精度文本对齐等工业级任务上的实际局限性，也缺少与 FLUX、SD3 等闭源模型在同等数据量下的直接公平对比。

何恺明王衔邦赵瀚宏陆伊炀周康阳马麟瑞MIT清华大学姚班量子位MiniT2IMM-JiTJiTVAEAdaLN流匹配CC12MGenEvalDPG-Bench

12 分钟 · 5 卡片 · 8 资料

读原文 →

全员本科生！何恺明组新作：文生图，258M参数就够了

概念锚点

前置背景

平行视角

未来推演

延伸追问