科技Bestblogs·莫崇宇··AI 生成
DeepSeek 突然发布 DSpark,让 AI 的回答不再「挤牙膏」
DeepSeek 联合北大发布的 DSpark 推理加速框架,通过半自回归草稿模型与置信度调度验证,在线上将单用户生成速度提升 57%-85%。文章核心贡献在于揭示了推理加速正从模型结构问题转向系统工程问题,需要平衡候选质量、验证预算与系统负载。适合关注大模型推理效率、系统优化的工程师或研究者阅读。原文 ↗原文 ↗
核心观点
- ▍DSpark 通过半自回归架构与置信度调度验证,在线上将单用户生成速度提升 57%-85%,并揭示推理加速正从模型结构问题转向系统工程问题。
- 01DSpark 采用半自回归架构:用并行主干快速铺开候选,再以轻量级顺序模块(如 Markov head)保持连贯性,避免纯并行模型的后缀衰减。
- 02引入置信度调度验证,根据系统负载和候选 token 的置信度动态决定验证长度,避免低价值 token 浪费批处理容量。
- 03离线实验在 Qwen3/Gemma4 上显示,DSpark 在接受长度上领先 Eagle3 约 30% 和 DFlash 约 18%。
- 04线上部署在 DeepSeek-V4 preview 引擎中,将单用户生成速度提升 57%-85%,系统吞吐提升 51%-52%。
- 05文章指出生成更多候选 token 不等于服务更快,还需考虑候选质量、验证预算与系统负载之间的平衡。
反方 / 局限
- — 文章未深入讨论 DSpark 在长上下文或极端负载场景下的性能衰减问题,也未与 Medusa 等其他推测解码方案进行详细对比。
前置背景
技术原理
应用场景
未来推演
延伸追问