北大与DeepSeek开源推理框架DSpark

6.4

深览指数

热点智搜·8小时前·AI 生成

北大与DeepSeek开源推理框架DSpark

本文介绍了北京大学与 DeepSeek 联合开源的推理加速框架 DSpark，其通过半自回归草稿生成和置信度调度验证两项创新，在同等吞吐下将单用户生成速度提升 60%-85%，系统推理吞吐最高提升 4 倍，并已部署于 DeepSeek-V4 预览版服务引擎。文章还梳理了双方此前在稀疏注意力、记忆模块、智能体推理系统等底层技术上的合作，并指出这类纯算法层面的优化正在降低中小团队入局大模型赛道的部署门槛。原文 ↗原文 ↗

核心观点

▍北大与 DeepSeek 联合开源的 DSpark 框架，通过纯算法的推测解码创新，使大模型推理性能大幅跃升，正在改写行业部署的盈利逻辑与门槛。
▍技术合作成果已反哺北大校内 AI 助教系统，并推动推出 185 页 DeepSeek 专业教程，促进本土 AI 工程化人才培养。

01DSpark 在同等吞吐量下，单用户生成速度较原有生产基线提升 60% 至 85%，系统整体推理吞吐最高翻了 4 倍。
02该框架已直接部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中，并通过 MIT 协议在 GitHub 全量开源。
03DSpark 不绑定自家模型，可无缝迁移适配通义千问（Qwen）、Gemma 等主流开源大模型。
04此前双方合作的原生稀疏注意力机制 NSA 将 64k 长文本序列解码速度加速超 11 倍，获 ACL 2025 最佳论文奖。
05条件记忆 Engram 模块将记忆与计算解耦，提供近似 O(1) 的确定性知识查找能力，长文本测试准确率升至 97.0%。
06DualPath 智能体推理系统通过双路径加载机制，在千卡级集群将在线服务吞吐平均提升近 2 倍。

北京大学 DeepSeek DSpark 稀疏注意力机制 NSA 条件记忆 Engram 模块 DualPath 智能体推理系统张铭清华大学通义千问 Gemma ACL 2025

3 分钟 · 3 卡片 · 7 资料

读原文 →读原文 →

北大与DeepSeek开源推理框架DSpark

前置背景

平行视角

未来推演