6.7
深览指数
产品微博·量子位··AI 生成
实测小米最快1T大模型:吞吐量每秒1K+ Tokens,Vibe Coding七秒交付
小米发布MiMo-V2.5-Pro-UltraSpeed模型,总参数1T、支持1M上下文,在通用GPU上实现1000+ TPS的推理速度,打破模型层、引擎层、系统层全链路协同设计的结果。文章通过番茄钟、全栈聊天室、多Agent剧本审阅三个实测案例,验证了速度和智商未因提速而降质。作者认为这一突破将旗舰大模型接入实时业务的能力门槛推开,并指出优化方案可复用至后续模型和GPU平台,是系统性拆除商业化障碍的关键一步。适合关注大模型工程化落地、推理优化、小米AI战略的技术决策者和研究人员阅读。
核心观点
- ▍小米通过全链路联合设计(模型层、引擎层、系统层),在通用GPU上实现了1T参数旗舰模型的1000+ TPS推理速度,打破了业界「快、强、通用GPU无法兼得」的行业不可能三角。
- ▍这一速度突破的意义不仅是Token吞吐更快,更是将旗舰大模型从「事后诸葛亮」的离线场景,第一次推进到高频量化交易、金融实时反欺诈、广告RTB竞价等对延迟极其敏感的实时业务领域。
- 01实测番茄钟网页生成:500+行HTML代码加思考过程共7秒完成;而使用Claude Haiku搭配Low Effort最快仍需40多秒。
- 02实测全栈聊天室开发(Node.js+Express+WebSocket+SQLite,含多频道、消息引用、在线用户管理等功能),从零到部署无等待感,且功能全部正常。
- 03多Agent剧本审阅测试:三个subagent并行分析电影大纲(结构、人物、市场),总耗时不到2分钟即完成并行审阅并输出修订版大纲,展示了多Agent协同的真实流畅性。
- 04模型层采用Hybrid SWA架构,将注意力机制拆成两级,近期内容精细计算,早期内容压缩参与,整体计算量降至Full Attention约1/7;引入FP4量化压缩Expert模块至4bit,同时保持注意力/Router模块高精度。
- 05引擎层采用DFlash方案,将传统Speculative Decoding的逐token串行生成改为对一整块位置同时并行加工,主模型整批审核而非单件验收。
- 06系统层与TileRT团队协作实现Persistent Kernel(常驻内核)和Warp Specialization(线程束专化),消除冷启动和等待闲置。
反方 / 局限
- — 文章未公开任何独立第三方基准测试结果(如MLPerf、MT-Bench等),所有1000+ TPS和智商验证均基于作者自行设计的简单任务,缺乏来自公平、标准化测试的验证。
- — 全文未讨论MiMo-V2.5-Pro-UltraSpeed的实际部署成本、单位Token价格、与竞品(如GPT-4o、Gemini 2.5 Pro)在同级别任务上的经济性对比,速度优势是否伴随成本劣势尚不明朗。
- — 实测中的多Agent审阅任务虽然展示了并行能力,但尚未说明这段协同流程是否能在更大规模(如5+ Agent并行)或更长上下文(接近1M token)下仍保持流畅,以及瓶颈是否从推理速度转移至Agent间的通信与同步开销。
MiMo-V2.5-Pro-UltraSpeed小米Hybrid SWADFlashFP4量化Speculative DecodingPersistent KernelWarp SpecializationTileRTClaude CodeHermesGroq
11 分钟 · 4 卡片 · 11 资料
读原文 →