刚刚，DeepSeek V4更新DSpark，推理速度提升80%

6.5

深览指数

科技微博·机器之心Pro·4小时前·AI 生成

刚刚，DeepSeek V4更新DSpark，推理速度提升80%

DeepSeek在V4系列模型上推出了投机解码框架DSpark，声称在不改变模型输出分布的前提下，将推理速度提升了60%-85%。这不是模型架构的迭代，而是一次面向线上生产环境的工程优化，通过半自回归生成和硬件感知的置信度调度，解决了高并发场景下的延迟与吞吐瓶颈。随DSpark一同开源的全栈代码库DeepSpec，为研究者提供了一套可复现的标准化工具链。文章信息密度高、工程细节详实，适合对LLM推理加速有实操需求的工程师阅读。原文 ↗原文 ↗

核心观点

▍DSpark是DeepSeek针对V4系列模型推出的投机解码框架，核心价值在于工程落地——在不改变模型能力的前提下，显著降低生产环境中的推理延迟，而非模型架构或能力本身的一次迭代。

01DSpark将高吞吐量的并行生成与自适应的负载感知验证结合：引入轻量级草稿模型预生成候选Token，再由目标模型批量验证，从而将串行逐Token生成转变为并行校验。
02DSpark采用半自回归生成架构，在并行草稿模型中加入轻量级串行模块，建模block内Token之间的依赖关系，以缓解并行草稿在后续位置接受率衰减的问题。
03DSpark引入硬件感知的置信度调度验证：通过置信度头评估每个Token被接受的概率，结合实时引擎吞吐量特征动态调整验证长度，避免在高负载时浪费算力于大概率被拒绝的尾部Token。
04在Qwen3系列（4B/8B/14B）目标模型上，DSpark的平均接受长度比Eagle3提升了26.7%-30.9%，比DFlash提升了16.3%-18.4%。
05相比于前一代部署的单Token生产基准（MTP-1），在维持相同总体吞吐量的情况下，DSpark将Flash模型的生成速度提升了60%-85%，Pro模型提升了57%-78%。
06DeepSpec是随DSpark开源的推测性解码全栈代码库，内置DSpark、DFlash和Eagle3三种草稿模型，当前支持Qwen3和Gemma目标模型，包含数据准备、训练和评估三阶段流程。
07在数据准备阶段，以默认的Qwen/Qwen3-4B配置为例，目标缓存体积可达约38TB，硬性存储需求较大。
08DeepSpec默认配置和脚本面向单节点8卡环境，硬件要求较高。

反方 / 局限

— DSpark工程落地的核心价值建立在对DeepSeek V4-Pro模型本身能力已经足够强的前提之下——如果目标模型本身有严重的能力缺陷，仅靠投机解码加速无法弥补。

DeepSeek DSpark DeepSpec 投机解码半自回归生成置信度调度草稿模型 Eagle3 DFlash Qwen3 Gemma MTP-1

6 分钟 · 4 卡片 · 8 资料

读原文 →

刚刚，DeepSeek V4更新DSpark，推理速度提升80%

前置背景

平行视角

未来推演

延伸追问