6.6
深览指数
科技量子位··AI 生成
梁文锋署名的DSpark,看懂这10个点就够了!
文章深度解读了梁文锋署名论文《DSpark》,通过梳理Fireworks AI CTO提炼的10个概念,系统阐释了这一大模型推理加速方案的技术原理。核心创新在于将并行草稿生成(DFlash)与串行前缀修正(马尔可夫头)相结合,并配合可变长度草稿、硬件感知调度和在线置信度校准等模块,形成一套端到端的系统工程。其基线对比已使用MTP优化的DeepSeek-V3,实现了60%-85%的在线推理速度提升,且配套训练库已开源。适合对LLM推理优化技术有基础认知、希望了解工程落地方案的从业者阅读。原文 ↗
核心观点
- ▍DSpark的核心创新不在于提出全新算法,而在于将并行草稿生成(DFlash)和轻量级顺序修正(马尔可夫头)融合,搭配可变长度草稿与在线调度,形成一套系统性工程方案,实现端到端的显著性能优化。
- 01DSpark的平均接受长度在离线测试中比Eagle3高26%-31%,比DFlash高16%-18%。
- 02草稿长度从4扩展到16,每轮额外增加的延迟只有0.2%-1.3%,但接受长度最高提升了30%。
- 03DSpark使用马尔可夫头作为顺序头,通过低秩分解(rank 256),计算成本几乎可以忽略。
- 04通过顺序温度缩放做后处理校准,将预期校准误差从3%-8%压到了约1%。
- 05论文中所有加速数字(60%-85%的速度提升)均是相对于已优化过的MTP-1基线,而非原始版本。
- 06DSpark的置信度头在GPU内部执行调度逻辑,无需CPU参与,实现硬件感知的动态验证长度匹配。
- 07配套的DeepSpec训练库已开源,支持Qwen3和Gemma等外部模型,开发者可直接用于训练自己的草稿器。
- 08核心公式:每个token的耗时 = (草稿耗时 + 验证耗时) / 被接受的token数τ,加速路径为降低草稿耗时、提高τ、减少验证浪费。
反方 / 局限
- — 并行草稿生成(DFlash)存在‘后缀衰减’问题,即位置越靠后接受率越低,这是纯并行方案在实际部署中加速效果打折的主因。
- — 推测解码引入的草稿模型并非免费,若草稿器跑得太慢或接受率过低,加速效果可能不划算。
15 分钟 · 4 卡片 · 9 资料
读原文 →