6.8
深览指数
科技智东西··AI 生成

梁文锋署名论文!DeepSeek首轮融资后大动作:生成速度大涨85%

DeepSeek 在完成 500 亿融资后开源了 DSpark 推测解码框架和 DeepSpec 训练工具链。部署 DSpark 后,在保持整体吞吐不变的前提下,用户生成速度提升 60%-85%,且避免了高并发场景下吞吐率大幅滑坡。核心创新在于半自回归架构缓解草稿尾部通过率衰减,以及置信度调度校验机制动态调整校验长度以节省算力。本文是 DeepSeek 首次在推理优化赛道落子,适合关注大模型工程化落地、推理成本控制或 DeepSeek 技术路线的人阅读。原文 ↗

核心观点
  • DeepSeek 首轮融资后首次开源成果并非发布新基础模型,而是推出一套让现有大模型跑得更快的工程方案——DSpark 推测解码框架与 DeepSpec 训练工具链,意在抢占推理效率竞争制高点。
  1. 01部署 DSpark 的 DeepSeek-V4-Pro-DSpark 模型在保持整体吞吐不变的前提下,将单用户生成速度提升 60%-85%。
  2. 02DSpark 通过半自回归架构,将并行主干网络与轻量串行模块结合,建模模块内 token 依赖,缓解了并行草稿器末尾内容通过率快速下滑的问题。
  3. 03DSpark 引入置信度调度校验机制,根据预估的前缀通过概率与引擎吞吐特征,为每条请求动态调整校验长度,避免将批次算力浪费在易被驳回的 token 上。
  4. 04DeepSpec 是一个全栈代码库,包含数据准备、草稿模型训练与评估脚本,支持 DSpark、DFlash 和 Eagle3 三种草稿模型,并致谢了 SpecForge、Qwen3 和 Gemma 团队。
  5. 05Hugging Face 模型卡明确说明 DSpark 版模型并非新模型,而是在原有版本上增加推测解码模块以加速推理和降低成本。
  6. 06论文由梁文锋署名,联合北京大学完成,题为《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。
反方 / 局限
  • 文章未讨论 DSpark 方案相对于其他推测解码方法在任务通用性上的局限,也未提及工程化部署中可能遇到的计算资源门槛或模型兼容性问题。
8 分钟 · 4 卡片 · 10 资料
读原文 →

前置背景

技术原理

平行视角

未来推演