Xiaomi MiMo 携手 TileRT｜1T 模型首次突破 1000 tokens/s 输出速度

5.4

深览指数

产品Bestblogs·Xiaomi MiMo·06-09 11:32·AI 生成

Xiaomi MiMo 携手 TileRT｜1T 模型首次突破 1000 tokens/s 输出速度

小米 MiMo 与 TileRT 联合发布的 MiMo-V2.5-Pro-UltraSpeed 模型，在通用 8 卡 GPU 上通过 FP4 混合量化与 DFlash 投机解码的协同设计，实现了万亿参数模型 1000+ tokens/s 的推理速度，并限时开放 API。这是模型与系统极致协同的成果，不依赖专用硬件，但文章本质是技术发布与性能宣示，缺乏对成本、精度损失、工程落地难度等实际问题的讨论。适合对 LLM 推理优化或系统-模型协同设计感兴趣的技术从业者阅读。

核心观点

▍通过模型-系统协同设计，在通用 8 卡 GPU 上实现万亿参数模型首次突破 1000 tokens/s 输出速度。

01核心技术之一 FP4 混合量化：仅对 MoE Expert 进行 FP4 量化，其他模块保留原精度，并通过 QAT 保持模型能力基本持平，大幅减小模型体积与访存开销。
02核心技术之一 DFlash 块级并行预测投机解码：利用滑动窗口注意力使 draft 开销常数化，在 Coding 场景达到平均 6.30 的接受长度。
03系统侧 TileRT 采用常驻内核引擎与异构流水线协作，摒弃逐算子启动，在微秒级尺度消除算子边界带来的执行间隙。
04展示了 10 秒生成贪吃蛇、1 分钟复刻 MacOS 等效果演示作为技术能力佐证。
05已开源 FP4-DFlash checkpoint，并限时开放 API 申请与 Chat 体验。

小米 MiMoTileRTMiMo-V2.5-Pro-UltraSpeedFP4 混合量化DFlash 投机解码MoE Expert

3 分钟 · 4 卡片 · 9 资料

读原文 →

Xiaomi MiMo 携手 TileRT｜1T 模型首次突破 1000 tokens/s 输出速度

前置背景

平行视角

未来推演

延伸追问