6.5
深览指数
科技微博·机器之心Pro··AI 生成

刚刚,DeepSeek V4更新DSpark,推理速度提升80%

DeepSeek在V4系列模型上推出了投机解码框架DSpark,声称在不改变模型输出分布的前提下,将推理速度提升了60%-85%。这不是模型架构的迭代,而是一次面向线上生产环境的工程优化,通过半自回归生成和硬件感知的置信度调度,解决了高并发场景下的延迟与吞吐瓶颈。随DSpark一同开源的全栈代码库DeepSpec,为研究者提供了一套可复现的标准化工具链。文章信息密度高、工程细节详实,适合对LLM推理加速有实操需求的工程师阅读。原文 ↗

核心观点
  • DSpark是DeepSeek针对V4系列模型推出的投机解码框架,核心价值在于工程落地——在不改变模型能力的前提下,显著降低生产环境中的推理延迟,而非模型架构或能力本身的一次迭代。
  1. 01DSpark将高吞吐量的并行生成与自适应的负载感知验证结合:引入轻量级草稿模型预生成候选Token,再由目标模型批量验证,从而将串行逐Token生成转变为并行校验。
  2. 02DSpark采用半自回归生成架构,在并行草稿模型中加入轻量级串行模块,建模block内Token之间的依赖关系,以缓解并行草稿在后续位置接受率衰减的问题。
  3. 03DSpark引入硬件感知的置信度调度验证:通过置信度头评估每个Token被接受的概率,结合实时引擎吞吐量特征动态调整验证长度,避免在高负载时浪费算力于大概率被拒绝的尾部Token。
  4. 04在Qwen3系列(4B/8B/14B)目标模型上,DSpark的平均接受长度比Eagle3提升了26.7%-30.9%,比DFlash提升了16.3%-18.4%。
  5. 05相比于前一代部署的单Token生产基准(MTP-1),在维持相同总体吞吐量的情况下,DSpark将Flash模型的生成速度提升了60%-85%,Pro模型提升了57%-78%。
  6. 06DeepSpec是随DSpark开源的推测性解码全栈代码库,内置DSpark、DFlash和Eagle3三种草稿模型,当前支持Qwen3和Gemma目标模型,包含数据准备、训练和评估三阶段流程。
  7. 07在数据准备阶段,以默认的Qwen/Qwen3-4B配置为例,目标缓存体积可达约38TB,硬性存储需求较大。
  8. 08DeepSpec默认配置和脚本面向单节点8卡环境,硬件要求较高。
反方 / 局限
  • DSpark工程落地的核心价值建立在对DeepSeek V4-Pro模型本身能力已经足够强的前提之下——如果目标模型本身有严重的能力缺陷,仅靠投机解码加速无法弥补。
6 分钟 · 4 卡片 · 8 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问