6.8
深览指数
科技腾讯新闻·字母AI··AI 生成

省钱,我只服梁文锋

DeepSeek 长期受服务器卡顿困扰,其创始人梁文锋挂名发表新论文《DSpark》,提出一种基于置信度调度的推测解码与半自回归生成方法,为模型装上“加速器”。该方案在数学上保证输出质量零损失,实测可将生成速度提升 60%-85%,高峰时段单 GPU 吞吐量提升 51%,且不改变硬件。文章将技术原理(半自回归生成、置信度调度验证)与创始人梁文锋一贯的“算法省硬件”风格(从其 2010 年硕士论文《基于低成本 PTZ 摄像机的目标跟踪算法研究》到如今靠算法优化推理成本)贯穿,揭示了 DeepSeek 独特决策闭环:研究者、管理者、投资者三位一体,省钱动力源于梁文锋是最大个人股东。适合关注 AI 推理成本、模型工程优化、以及 DeepSeek 公司战略的读者阅读。原文 ↗

核心观点
  • DeepSeek 推出 DSpark 加速方案,核心是通过半自回归生成和置信度调度验证,在数学上保证输出质量零损失的前提下,将推理速度提升 60%-85%,吞吐量提升 51%。
  • 梁文锋个人同时作为投资者、管理者和研究者,形成罕见的决策闭环,省钱动力来自个人利益高度绑定,这是其持续聚焦推理成本优化的深层原因。
  1. 01DSpark 通过投机解码(Speculative Decoding)机制,用一个轻量草稿模型快速猜出一串字,再由主模型一次性验证,核心创新是半自回归生成加置信度调度:打完“靠谱分”后,按分数排队,动态决定验证多少批,高并发时只验证高分批次以节省算力。
  2. 02在低延迟要求下(V4-Flash,每用户每秒 120 字),DSpark 相比此前 MTP-1 系统,并发承受能力提升 6 倍;中等负载下(每用户每秒 80 字),单 GPU 总吞吐量从 10000 token/秒提升至 15100 token/秒,提升 51%。
  3. 03论文引用及实测数据表明,拒绝采样机制从数学上严格保证输出分布与原自回归模型完全一致,且在数学推理、代码生成、日常对话三个领域的离线测试中无统计显著差异,线上也无质量下降反馈。
  4. 04草稿模型计算量仅占总计算量的不到 10%,在 51% 的吞吐量提升面前,此额外负载可忽略不计。
  5. 05DeepSeek 已将整个 DeepSpec 训练框架开源,允许用户为 Qwen3、Gemma 等模型训练自己的草稿模型,进一步压低行业推理成本基准线。
  6. 06梁文锋 2010 年硕士论文《基于低成本 PTZ 摄像机的目标跟踪算法研究》就用几百元的普通球机,通过自研算法达到接近数万元工业相机的精度,“用算法省硬件”风格延续至今。
  7. 07DeepSeek 首轮超 500 亿元融资中,梁文锋个人出资 200 亿(40%),且外部投资者进入有限合伙企业,无投票权,股份锁定五年。幻方量化 2025 年平均收益率 56.55%,全年营收约 86 亿元。
反方 / 局限
  • DSpark 整体是一个“补短板”式的工程优化,并非颠覆性创新——投机解码本身是业界已有技术路线。对于已在其他大模型上采用更激进加速方案(如并行生成、多草稿模型)的同行,DSpark 的创新幅度可能有限。
10 分钟 · 6 卡片 · 15 资料
读原文 →

概念锚点

前置背景

论证骨架

平行视角

未来推演

延伸追问