7.3
深览指数
科技量子位··AI 生成

全员本科生!何恺明组新作:文生图,258M参数就够了

何恺明团队提出 MM-JiT 架构,将 JiT 的“像素空间扩散”思路扩展至文生图领域,训练仅需 8 张 H100 跑 3 天(约一次 ImageNet 实验的算力),258M 参数的 MiniT2I 模型在 GenEval 等基准上超越多数参数规模数倍的同行。文章核心贡献在于系统性地“剪枝”主流文生图管线:去掉了 VAE 编解码、AdaLN 机制等“多余”组件,论证了文本条件并不比类别条件更复杂,为学术团队提供了低成本入局文生图的技术路线。适合关注扩散模型架构极简化的研究者和对 AI 模型训练成本敏感的工程师阅读。原文 ↗

核心观点
  • 文生图模型未必需要数十亿参数和海量数据;通过在像素空间直接生成、去除 VAE 和 AdaLN 等传统组件,258M 参数的 MiniT2I 即可达到有竞争力的效果。
  1. 01MiniT2I 完全抛弃 VAE 编解码器,直接在像素空间进行扩散生成,单次前向传播计算量从传统潜空间模型的 1379 GFLOPs 降至 265 GFLOPs,降低约 80%。
  2. 02MM-JiT 架构移除了 SD3 所用的 AdaLN 机制,仅通过联合注意力注入时间步和文本条件,参数量维持 260M,FID 从基线 18.7 提升至 13.7。
  3. 03训练流程分为两阶段:在 CC12M 上预训练 25 万步,再以 12 万张高质量合成图像微调 4 万步,总算力仅需 8 张 H100 运行约 3 天。
  4. 04B/16 版本 ( < 600M 参数 ) 在 GenEval 达到 0.87,DPG-Bench 达到 84.2,超过多款参数规模更大的像素空间文生图模型。
  5. 05在 PRISM-Bench 上,L/16 版本获得 62.4 分,逼近 FLUX.1-dev 的 68.5 分,且在风格表现和开放想象力两个子项上超过 FLUX。
反方 / 局限
  • 模型在文字渲染和命名实体生成方面表现较弱,作者归因于公开训练数据覆盖范围有限。
  • 文章未充分讨论 MM-JiT 在多轮复杂构图、高精度文本对齐等工业级任务上的实际局限性,也缺少与 FLUX、SD3 等闭源模型在同等数据量下的直接公平对比。
何恺明王衔邦赵瀚宏陆伊炀周康阳马麟瑞MIT清华大学姚班量子位MiniT2IMM-JiTJiTVAEAdaLN流匹配CC12MGenEvalDPG-Bench
12 分钟 · 5 卡片 · 8 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问