DeepSeek联合北大开源推理加速框架DSpark

6.9

深览指数

热点智搜·3小时前·AI 生成

DeepSeek联合北大开源推理加速框架DSpark

DeepSeek 与北大联合开源的推理加速框架 DSpark，通过推测解码和半自回归架构，在真实部署中实现吞吐量提升 51%-400%、单用户生成速度提升 57%-85%，显著降低推理成本。本文核心价值在于揭示了行业竞争焦点从“卷参数规模”转向“拼推理效率与成本”的结构性转变——缓解算力焦虑、降低企业落地门槛，同时强调加速幅度受模型规模与任务复杂度影响，非所有场景均能翻倍。适合关注大模型工程化落地、算力成本优化或开源生态的技术决策者阅读。原文 ↗原文 ↗

核心观点

▍DSpark 的发布标志着国产大模型从“卷参数规模”正式进入“拼推理效率与成本”的工程化深耕新阶段，推理效率成为新的行业竞争门槛。

01DSpark 采用推测解码逻辑，配备轻量级“草稿助理”小模型批量生成候选文本，大模型一次性校验，避免逐个 Token 重复计算。
02半自回归架构：并行主干网络+轻量级顺序模块，解决了传统推测解码中随候选文本变长接受率迅速衰减的问题。
03置信度与硬件感知调度：根据草稿概率打分并结合 GPU 负载，动态决定每次验证长度，精准截断低概率内容。
04在真实生产环境测试中，相比单 Token 推测解码基线（MTP-1），吞吐量提升 51% 至 400%，单用户生成速度提升 57% 至 85%。
05DSpark 并非封闭武器，广泛兼容 DeepSeek-V4、通义千问（Qwen）、Gemma 等主流开源模型，并已通过 MIT 协议完全开源。
06通过软件架构优化降低对顶尖硬件和高带宽内存的依赖，为受限于算力的团队提供“换路超车”路径。

反方 / 局限

— 官方宣称的最高 400% 吞吐提升通常是在特定高并发或严苛 SLA 条件下的峰值表现；实际部署中，加速幅度受模型规模、任务复杂度（复杂推理场景预判准确率可能下降）和硬件环境显著影响，不能简单等同于所有业务场景都能直接翻四倍。

DeepSeek 北京大学 DSpark 推测解码半自回归生成通义千问 Gemma

3 分钟 · 4 卡片 · 12 资料

读原文 →读原文 →

DeepSeek联合北大开源推理加速框架DSpark

前置背景

平行视角

未来推演

延伸追问