省钱，我只服梁文锋

6.8

深览指数

科技腾讯新闻·字母AI·4小时前·AI 生成

省钱，我只服梁文锋

DeepSeek 长期受服务器卡顿困扰，其创始人梁文锋挂名发表新论文《DSpark》，提出一种基于置信度调度的推测解码与半自回归生成方法，为模型装上“加速器”。该方案在数学上保证输出质量零损失，实测可将生成速度提升 60%-85%，高峰时段单 GPU 吞吐量提升 51%，且不改变硬件。文章将技术原理（半自回归生成、置信度调度验证）与创始人梁文锋一贯的“算法省硬件”风格（从其 2010 年硕士论文《基于低成本 PTZ 摄像机的目标跟踪算法研究》到如今靠算法优化推理成本）贯穿，揭示了 DeepSeek 独特决策闭环：研究者、管理者、投资者三位一体，省钱动力源于梁文锋是最大个人股东。适合关注 AI 推理成本、模型工程优化、以及 DeepSeek 公司战略的读者阅读。原文 ↗原文 ↗

核心观点

▍DeepSeek 推出 DSpark 加速方案，核心是通过半自回归生成和置信度调度验证，在数学上保证输出质量零损失的前提下，将推理速度提升 60%-85%，吞吐量提升 51%。
▍梁文锋个人同时作为投资者、管理者和研究者，形成罕见的决策闭环，省钱动力来自个人利益高度绑定，这是其持续聚焦推理成本优化的深层原因。

01DSpark 通过投机解码（Speculative Decoding）机制，用一个轻量草稿模型快速猜出一串字，再由主模型一次性验证，核心创新是半自回归生成加置信度调度：打完“靠谱分”后，按分数排队，动态决定验证多少批，高并发时只验证高分批次以节省算力。
02在低延迟要求下（V4-Flash，每用户每秒 120 字），DSpark 相比此前 MTP-1 系统，并发承受能力提升 6 倍；中等负载下（每用户每秒 80 字），单 GPU 总吞吐量从 10000 token/秒提升至 15100 token/秒，提升 51%。
03论文引用及实测数据表明，拒绝采样机制从数学上严格保证输出分布与原自回归模型完全一致，且在数学推理、代码生成、日常对话三个领域的离线测试中无统计显著差异，线上也无质量下降反馈。
04草稿模型计算量仅占总计算量的不到 10%，在 51% 的吞吐量提升面前，此额外负载可忽略不计。
05DeepSeek 已将整个 DeepSpec 训练框架开源，允许用户为 Qwen3、Gemma 等模型训练自己的草稿模型，进一步压低行业推理成本基准线。
06梁文锋 2010 年硕士论文《基于低成本 PTZ 摄像机的目标跟踪算法研究》就用几百元的普通球机，通过自研算法达到接近数万元工业相机的精度，“用算法省硬件”风格延续至今。
07DeepSeek 首轮超 500 亿元融资中，梁文锋个人出资 200 亿（40%），且外部投资者进入有限合伙企业，无投票权，股份锁定五年。幻方量化 2025 年平均收益率 56.55%，全年营收约 86 亿元。

反方 / 局限

— DSpark 整体是一个“补短板”式的工程优化，并非颠覆性创新——投机解码本身是业界已有技术路线。对于已在其他大模型上采用更激进加速方案（如并行生成、多草稿模型）的同行，DSpark 的创新幅度可能有限。

梁文锋 DeepSeek 幻方量化 DSpark 投机解码半自回归生成置信度调度验证 MTP-1 DeepSpec V4-Flash

10 分钟 · 6 卡片 · 15 资料

读原文 →

省钱，我只服梁文锋

概念锚点

前置背景

论证骨架

平行视角

未来推演

延伸追问