5.7
深览指数
科技量子位··AI 生成

实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

实测显示,小米新发布 MiMo-V2.5-Pro-UltraSpeed 模型在通用 GPU 上实现了单 API 推理速度超过 1000 TPS,参数量高达 1T。文章通过 H5 应用开发、全栈聊天室构建和剧本协同审阅三个实测案例,展示了该模型的极速推理能力,并声称模型在高速度下依然保持了高质量的推理和代码生成能力。作者强调,这一突破打破了“速度、性能、通用性”三者不可兼得的行业不可能三角,并借此展示了小米从模型层到引擎层的全链路推理优化能力。本文适合对 AI 模型前沿技术、推理效率优化及商业化落地感兴趣的读者阅读。

核心观点
  • 小米的 MiMo-V2.5-Pro-UltraSpeed 模型在拥有 1T 参数和 1M 上下文的前提下,使用通用 GPU 实现了单 API 推理速度超过 1000 TPS,打破了行业关于速度、智商和通用性不可兼得的困境。
  • 这种速度突破不是单纯通过模型量化牺牲性能换来的,而是来自模型层(Hybrid SWA + FP4量化)、引擎层(DFlash 投机解码改造)和系统层(Persistent Kernel + Warp Specialization)的全链路联合优化。
  1. 01实测演示中,该模型在 7 秒内生成超过 500 行 HTML/CSS/JavaScript 代码,用于创建符合要求的番茄钟应用,输出阶段的 Token 生成速度稳定在 1000+ TPS,峰值达到 3300+ TPS。
  2. 02在构建包含前端、后端、数据库的完整局域网聊天室任务中,模型成功实现用户在线、消息接收、代码高亮、消息引用、数据持久化等功能,展示了其在高复杂任务中同样保持高质量输出。
  3. 03在多 Agent 协同剧本审阅测试中,超过 1T 参数的模型能在不到 2 分钟内完成三个 subagent 的并行任务并输出综合报告,证明了 1000+ TPS 的推理速度对多 Agent 系统的流畅协同具有实际价值。
  4. 04文章提到,在 MiMo-V2.5-Pro-UltraSpeed 发布前,业界公开可见的最快推理速度大概是 400B 模型跑出 400 TPS,这通常是通过牺牲模型参数量(智商)换来的。
反方 / 局限
  • 虽然文章强调速度没有“降智”,但实测案例均为编程和结构化分析任务,这些任务对模型“智商”的评判标准相对有限。对于需要更深层次推理、文学创作或复杂决策等高难度智力任务,该模型是否还能保持同等级别的“智商”,文章未给出相关测试。
  • 文章未披露具体的“通用GPU”型号、数量以及部署成本。高速推理是否会带来显著的硬件成本增加或资源消耗,是判断其商业价值的关键信息,文中未提及。
MiMo-V2.5-Pro-UltraSpeed小米Hybrid SWADFlashTileRTGroq量子位
15 分钟 · 5 卡片 · 14 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问