产品Bestblogs·Xiaomi MiMo··AI 生成
Xiaomi MiMo 携手 TileRT|1T 模型首次突破 1000 tokens/s 输出速度
小米 MiMo 与 TileRT 联合发布的 MiMo-V2.5-Pro-UltraSpeed 模型,在通用 8 卡 GPU 上通过 FP4 混合量化与 DFlash 投机解码的协同设计,实现了万亿参数模型 1000+ tokens/s 的推理速度,并限时开放 API。这是模型与系统极致协同的成果,不依赖专用硬件,但文章本质是技术发布与性能宣示,缺乏对成本、精度损失、工程落地难度等实际问题的讨论。适合对 LLM 推理优化或系统-模型协同设计感兴趣的技术从业者阅读。
核心观点
- ▍通过模型-系统协同设计,在通用 8 卡 GPU 上实现万亿参数模型首次突破 1000 tokens/s 输出速度。
- 01核心技术之一 FP4 混合量化:仅对 MoE Expert 进行 FP4 量化,其他模块保留原精度,并通过 QAT 保持模型能力基本持平,大幅减小模型体积与访存开销。
- 02核心技术之一 DFlash 块级并行预测投机解码:利用滑动窗口注意力使 draft 开销常数化,在 Coding 场景达到平均 6.30 的接受长度。
- 03系统侧 TileRT 采用常驻内核引擎与异构流水线协作,摒弃逐算子启动,在微秒级尺度消除算子边界带来的执行间隙。
- 04展示了 10 秒生成贪吃蛇、1 分钟复刻 MacOS 等效果演示作为技术能力佐证。
- 05已开源 FP4-DFlash checkpoint,并限时开放 API 申请与 Chat 体验。
小米 MiMoTileRTMiMo-V2.5-Pro-UltraSpeedFP4 混合量化DFlash 投机解码MoE Expert
前置背景
平行视角
未来推演
延伸追问