实测小米最快1T大模型：吞吐量每秒1K+ Tokens，Vibe Coding七秒交付

6.7

深览指数

产品微博·量子位·5小时前·AI 生成

实测小米最快1T大模型：吞吐量每秒1K+ Tokens，Vibe Coding七秒交付

小米发布MiMo-V2.5-Pro-UltraSpeed模型，总参数1T、支持1M上下文，在通用GPU上实现1000+ TPS的推理速度，打破模型层、引擎层、系统层全链路协同设计的结果。文章通过番茄钟、全栈聊天室、多Agent剧本审阅三个实测案例，验证了速度和智商未因提速而降质。作者认为这一突破将旗舰大模型接入实时业务的能力门槛推开，并指出优化方案可复用至后续模型和GPU平台，是系统性拆除商业化障碍的关键一步。适合关注大模型工程化落地、推理优化、小米AI战略的技术决策者和研究人员阅读。

核心观点

▍小米通过全链路联合设计（模型层、引擎层、系统层），在通用GPU上实现了1T参数旗舰模型的1000+ TPS推理速度，打破了业界「快、强、通用GPU无法兼得」的行业不可能三角。
▍这一速度突破的意义不仅是Token吞吐更快，更是将旗舰大模型从「事后诸葛亮」的离线场景，第一次推进到高频量化交易、金融实时反欺诈、广告RTB竞价等对延迟极其敏感的实时业务领域。

01实测番茄钟网页生成：500+行HTML代码加思考过程共7秒完成；而使用Claude Haiku搭配Low Effort最快仍需40多秒。
02实测全栈聊天室开发（Node.js+Express+WebSocket+SQLite，含多频道、消息引用、在线用户管理等功能），从零到部署无等待感，且功能全部正常。
03多Agent剧本审阅测试：三个subagent并行分析电影大纲（结构、人物、市场），总耗时不到2分钟即完成并行审阅并输出修订版大纲，展示了多Agent协同的真实流畅性。
04模型层采用Hybrid SWA架构，将注意力机制拆成两级，近期内容精细计算，早期内容压缩参与，整体计算量降至Full Attention约1/7；引入FP4量化压缩Expert模块至4bit，同时保持注意力/Router模块高精度。
05引擎层采用DFlash方案，将传统Speculative Decoding的逐token串行生成改为对一整块位置同时并行加工，主模型整批审核而非单件验收。
06系统层与TileRT团队协作实现Persistent Kernel（常驻内核）和Warp Specialization（线程束专化），消除冷启动和等待闲置。

反方 / 局限

— 文章未公开任何独立第三方基准测试结果（如MLPerf、MT-Bench等），所有1000+ TPS和智商验证均基于作者自行设计的简单任务，缺乏来自公平、标准化测试的验证。
— 全文未讨论MiMo-V2.5-Pro-UltraSpeed的实际部署成本、单位Token价格、与竞品（如GPT-4o、Gemini 2.5 Pro）在同级别任务上的经济性对比，速度优势是否伴随成本劣势尚不明朗。
— 实测中的多Agent审阅任务虽然展示了并行能力，但尚未说明这段协同流程是否能在更大规模（如5+ Agent并行）或更长上下文（接近1M token）下仍保持流畅，以及瓶颈是否从推理速度转移至Agent间的通信与同步开销。

MiMo-V2.5-Pro-UltraSpeed小米Hybrid SWADFlashFP4量化Speculative DecodingPersistent KernelWarp SpecializationTileRTClaude CodeHermesGroq

11 分钟 · 4 卡片 · 11 资料

读原文 →

实测小米最快1T大模型：吞吐量每秒1K+ Tokens，Vibe Coding七秒交付

前置背景

平行视角

未来推演

延伸追问