梁文锋署名论文！DeepSeek首轮融资后大动作：生成速度大涨85%

6.8

深览指数

科技智东西·1小时前·AI 生成

梁文锋署名论文！DeepSeek首轮融资后大动作：生成速度大涨85%

DeepSeek 在完成 500 亿融资后开源了 DSpark 推测解码框架和 DeepSpec 训练工具链。部署 DSpark 后,在保持整体吞吐不变的前提下,用户生成速度提升 60%-85%,且避免了高并发场景下吞吐率大幅滑坡。核心创新在于半自回归架构缓解草稿尾部通过率衰减,以及置信度调度校验机制动态调整校验长度以节省算力。本文是 DeepSeek 首次在推理优化赛道落子,适合关注大模型工程化落地、推理成本控制或 DeepSeek 技术路线的人阅读。原文 ↗原文 ↗

核心观点

▍DeepSeek 首轮融资后首次开源成果并非发布新基础模型，而是推出一套让现有大模型跑得更快的工程方案——DSpark 推测解码框架与 DeepSpec 训练工具链，意在抢占推理效率竞争制高点。

01部署 DSpark 的 DeepSeek-V4-Pro-DSpark 模型在保持整体吞吐不变的前提下，将单用户生成速度提升 60%-85%。
02DSpark 通过半自回归架构，将并行主干网络与轻量串行模块结合，建模模块内 token 依赖，缓解了并行草稿器末尾内容通过率快速下滑的问题。
03DSpark 引入置信度调度校验机制，根据预估的前缀通过概率与引擎吞吐特征，为每条请求动态调整校验长度，避免将批次算力浪费在易被驳回的 token 上。
04DeepSpec 是一个全栈代码库，包含数据准备、草稿模型训练与评估脚本，支持 DSpark、DFlash 和 Eagle3 三种草稿模型，并致谢了 SpecForge、Qwen3 和 Gemma 团队。
05Hugging Face 模型卡明确说明 DSpark 版模型并非新模型，而是在原有版本上增加推测解码模块以加速推理和降低成本。
06论文由梁文锋署名，联合北京大学完成，题为《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。

反方 / 局限

— 文章未讨论 DSpark 方案相对于其他推测解码方法在任务通用性上的局限，也未提及工程化部署中可能遇到的计算资源门槛或模型兼容性问题。

DeepSeek DSpark DeepSpec 推测解码半自回归生成置信度调度校验梁文锋北京大学 DeepSeek-V4 Hugging Face GitHub MTP-1 DFlash Eagle3 Qwen3 Gemma

8 分钟 · 4 卡片 · 10 资料

读原文 →

梁文锋署名论文！DeepSeek首轮融资后大动作：生成速度大涨85%

前置背景

技术原理

平行视角

未来推演