6.6万人排队！小米旗舰“超速”模型延长体验时间，官方：500强争着用

6.0

深览指数

科技智东西·3小时前·AI 生成

6.6万人排队！小米旗舰“超速”模型延长体验时间，官方：500强争着用

小米MiMo-V2.5-Pro-UltraSpeed模型因申请量远超预期，将API体验期限延长。该模型在标准8卡GPU上实现了万亿参数模型1000 tokens/s的输出速度，峰值可达1200 tokens/s，远高于GPT-5.5（约65 tokens/s）和Claude Opus（约71 tokens/s）。技术路径为FP4混合量化与DFlash投机解码的软硬件协同优化，定价约为标准版的3倍。文章包含具体的技术实现细节、定价数据和行业速度对比，适合关注AI模型推理效率、大模型工程化落地或小米AI技术布局的读者。原文 ↗原文 ↗

核心观点

▍小米MiMo团队通过模型侧（FP4量化+DFlash投机解码）和系统侧（TileRT定制编译）的协同优化，在标准8卡GPU节点上实现了万亿参数大模型超过1000 tokens/s的推理速度，这是不依赖定制硬件的重大工程突破。

01截至6月23日，模型已收到超过6.6万个使用申请，申请者包括世界500强公司、行业头部企业及个人开发者，覆盖法律、金融、通信等7个以上领域。
02模型基于MoE架构，总参数量1T，单次前向传播激活参数约420亿，支持100万token超长上下文。
03UltraSpeed模型在标准8卡通用GPU节点实现1000 tokens/s输出，峰值约1200 tokens/s，而GPT-5.5约为62-68 tokens/s，Claude Opus约为71 tokens/s。
04模型侧采用FP4混合量化，主要对MoE Expert进行FP4量化，其他模块保留较高精度，以降低模型体积和访存压力。
05MiMo引入DFlash投机解码，用块级Masked并行预测替代传统Draft模型逐token自回归，实现一次验证更多候选token。
06系统侧TileRT为FP4量化和DFlash流程定制编译引擎与计算核，通过常驻内核引擎、异构流水线协作减少算子启动和同步开销。
07UltraSpeed API输出定价18元/百万tokens（约2.65美元），为标准版价格的3倍，但提供了约10倍的输出速度提升。
08对比Anthropic Claude Opus的API输出定价25美元/百万tokens（约170元人民币），UltraSpeed价格优势显著。

反方 / 局限

— 作者提及海外开发者社区对MoE架构下「万亿参数」的可比性提出质疑，即不同模型对「万亿参数」的定义和实现可能不同，直接比较性能指标需要谨慎。
— 文章本质上是产品进展通报，缺少对UltraSpeed模型在复杂推理任务上的实际效果评测，速度提升与生成质量之间的权衡关系未被讨论。

小米 MiMo-V2.5-Pro-UltraSpeed TileRT FP4混合量化 DFlash投机解码 MoE架构 GPT-5.5 Claude Opus Anthropic 雷军 Hugging Face Artificial Analysis

28 分钟 · 3 卡片 · 8 资料

读原文 →

6.6万人排队！小米旗舰“超速”模型延长体验时间，官方：500强争着用

技术原理

平行视角

延伸追问