6.0
深览指数
科技智东西··AI 生成
6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用
小米MiMo-V2.5-Pro-UltraSpeed模型因申请量远超预期,将API体验期限延长。该模型在标准8卡GPU上实现了万亿参数模型1000 tokens/s的输出速度,峰值可达1200 tokens/s,远高于GPT-5.5(约65 tokens/s)和Claude Opus(约71 tokens/s)。技术路径为FP4混合量化与DFlash投机解码的软硬件协同优化,定价约为标准版的3倍。文章包含具体的技术实现细节、定价数据和行业速度对比,适合关注AI模型推理效率、大模型工程化落地或小米AI技术布局的读者。原文 ↗
核心观点
- ▍小米MiMo团队通过模型侧(FP4量化+DFlash投机解码)和系统侧(TileRT定制编译)的协同优化,在标准8卡GPU节点上实现了万亿参数大模型超过1000 tokens/s的推理速度,这是不依赖定制硬件的重大工程突破。
- 01截至6月23日,模型已收到超过6.6万个使用申请,申请者包括世界500强公司、行业头部企业及个人开发者,覆盖法律、金融、通信等7个以上领域。
- 02模型基于MoE架构,总参数量1T,单次前向传播激活参数约420亿,支持100万token超长上下文。
- 03UltraSpeed模型在标准8卡通用GPU节点实现1000 tokens/s输出,峰值约1200 tokens/s,而GPT-5.5约为62-68 tokens/s,Claude Opus约为71 tokens/s。
- 04模型侧采用FP4混合量化,主要对MoE Expert进行FP4量化,其他模块保留较高精度,以降低模型体积和访存压力。
- 05MiMo引入DFlash投机解码,用块级Masked并行预测替代传统Draft模型逐token自回归,实现一次验证更多候选token。
- 06系统侧TileRT为FP4量化和DFlash流程定制编译引擎与计算核,通过常驻内核引擎、异构流水线协作减少算子启动和同步开销。
- 07UltraSpeed API输出定价18元/百万tokens(约2.65美元),为标准版价格的3倍,但提供了约10倍的输出速度提升。
- 08对比Anthropic Claude Opus的API输出定价25美元/百万tokens(约170元人民币),UltraSpeed价格优势显著。
反方 / 局限
- — 作者提及海外开发者社区对MoE架构下「万亿参数」的可比性提出质疑,即不同模型对「万亿参数」的定义和实现可能不同,直接比较性能指标需要谨慎。
- — 文章本质上是产品进展通报,缺少对UltraSpeed模型在复杂推理任务上的实际效果评测,速度提升与生成质量之间的权衡关系未被讨论。
小米MiMo-V2.5-Pro-UltraSpeedTileRTFP4混合量化DFlash投机解码MoE架构GPT-5.5Claude OpusAnthropic雷军Hugging FaceArtificial Analysis
28 分钟 · 3 卡片 · 8 资料
读原文 →