实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

5.7

深览指数

科技量子位·1小时前·AI 生成

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

实测显示，小米新发布 MiMo-V2.5-Pro-UltraSpeed 模型在通用 GPU 上实现了单 API 推理速度超过 1000 TPS，参数量高达 1T。文章通过 H5 应用开发、全栈聊天室构建和剧本协同审阅三个实测案例，展示了该模型的极速推理能力，并声称模型在高速度下依然保持了高质量的推理和代码生成能力。作者强调，这一突破打破了“速度、性能、通用性”三者不可兼得的行业不可能三角，并借此展示了小米从模型层到引擎层的全链路推理优化能力。本文适合对 AI 模型前沿技术、推理效率优化及商业化落地感兴趣的读者阅读。

核心观点

▍小米的 MiMo-V2.5-Pro-UltraSpeed 模型在拥有 1T 参数和 1M 上下文的前提下，使用通用 GPU 实现了单 API 推理速度超过 1000 TPS，打破了行业关于速度、智商和通用性不可兼得的困境。
▍这种速度突破不是单纯通过模型量化牺牲性能换来的，而是来自模型层（Hybrid SWA + FP4量化）、引擎层（DFlash 投机解码改造）和系统层（Persistent Kernel + Warp Specialization）的全链路联合优化。

01实测演示中，该模型在 7 秒内生成超过 500 行 HTML/CSS/JavaScript 代码，用于创建符合要求的番茄钟应用，输出阶段的 Token 生成速度稳定在 1000+ TPS，峰值达到 3300+ TPS。
02在构建包含前端、后端、数据库的完整局域网聊天室任务中，模型成功实现用户在线、消息接收、代码高亮、消息引用、数据持久化等功能，展示了其在高复杂任务中同样保持高质量输出。
03在多 Agent 协同剧本审阅测试中，超过 1T 参数的模型能在不到 2 分钟内完成三个 subagent 的并行任务并输出综合报告，证明了 1000+ TPS 的推理速度对多 Agent 系统的流畅协同具有实际价值。
04文章提到，在 MiMo-V2.5-Pro-UltraSpeed 发布前，业界公开可见的最快推理速度大概是 400B 模型跑出 400 TPS，这通常是通过牺牲模型参数量（智商）换来的。

反方 / 局限

— 虽然文章强调速度没有“降智”，但实测案例均为编程和结构化分析任务，这些任务对模型“智商”的评判标准相对有限。对于需要更深层次推理、文学创作或复杂决策等高难度智力任务，该模型是否还能保持同等级别的“智商”，文章未给出相关测试。
— 文章未披露具体的“通用GPU”型号、数量以及部署成本。高速推理是否会带来显著的硬件成本增加或资源消耗，是判断其商业价值的关键信息，文中未提及。

MiMo-V2.5-Pro-UltraSpeed小米Hybrid SWADFlashTileRTGroq量子位

15 分钟 · 5 卡片 · 14 资料

读原文 →

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

前置背景

技术原理

平行视角

未来推演

延伸追问