梁文锋署名的DSpark，看懂这10个点就够了！

6.6

深览指数

科技量子位·1小时前·AI 生成

梁文锋署名的DSpark，看懂这10个点就够了！

文章深度解读了梁文锋署名论文《DSpark》，通过梳理Fireworks AI CTO提炼的10个概念，系统阐释了这一大模型推理加速方案的技术原理。核心创新在于将并行草稿生成（DFlash）与串行前缀修正（马尔可夫头）相结合，并配合可变长度草稿、硬件感知调度和在线置信度校准等模块，形成一套端到端的系统工程。其基线对比已使用MTP优化的DeepSeek-V3，实现了60%-85%的在线推理速度提升，且配套训练库已开源。适合对LLM推理优化技术有基础认知、希望了解工程落地方案的从业者阅读。原文 ↗原文 ↗

核心观点

▍DSpark的核心创新不在于提出全新算法，而在于将并行草稿生成（DFlash）和轻量级顺序修正（马尔可夫头）融合，搭配可变长度草稿与在线调度，形成一套系统性工程方案，实现端到端的显著性能优化。

01DSpark的平均接受长度在离线测试中比Eagle3高26%-31%，比DFlash高16%-18%。
02草稿长度从4扩展到16，每轮额外增加的延迟只有0.2%-1.3%，但接受长度最高提升了30%。
03DSpark使用马尔可夫头作为顺序头，通过低秩分解（rank 256），计算成本几乎可以忽略。
04通过顺序温度缩放做后处理校准，将预期校准误差从3%-8%压到了约1%。
05论文中所有加速数字（60%-85%的速度提升）均是相对于已优化过的MTP-1基线，而非原始版本。
06DSpark的置信度头在GPU内部执行调度逻辑，无需CPU参与，实现硬件感知的动态验证长度匹配。
07配套的DeepSpec训练库已开源，支持Qwen3和Gemma等外部模型，开发者可直接用于训练自己的草稿器。
08核心公式：每个token的耗时 = （草稿耗时 + 验证耗时） / 被接受的token数τ，加速路径为降低草稿耗时、提高τ、减少验证浪费。

反方 / 局限

— 并行草稿生成（DFlash）存在‘后缀衰减’问题，即位置越靠后接受率越低，这是纯并行方案在实际部署中加速效果打折的主因。
— 推测解码引入的草稿模型并非免费，若草稿器跑得太慢或接受率过低，加速效果可能不划算。

梁文锋 DSpark DFlash DeepSeek-V3 MTP Eagle系列 Fireworks AI Dmytro Dzhulgakov PyTorch DeepSpec 马尔可夫头顺序温度缩放

15 分钟 · 4 卡片 · 9 资料

读原文 →

梁文锋署名的DSpark，看懂这10个点就够了！

概念锚点

前置背景

未来推演

延伸追问