7.6
深览指数
科技腾讯新闻·圈内小八哥··AI 生成

DeepSeek斩杀线研究——当我们把所有“东方模型”的价格降成DeepSeek一样后,会发生什么?

本文基于ZenMux平台的真实调用数据,提出“Token经济学”框架,以归一化价格和归一化日用量两个可观测变量评估大模型的实际市场价值。研究发现DeepSeek V4 Pro和V4 Flash因“低价+高用量”形成价格锚点,迫使其他模型回答“贵在哪里”;Claude Opus系列走高端路线依然被市场买单;GLM 5.2已从“平替”转向旗舰。适合关注模型市场真实竞争格局的开发者与AI从业者阅读。原文 ↗

核心观点
  • 模型市场最残酷的真相是:价格是厂商给模型贴的标签,用量是用户给模型投的票;能同时做到低价和高用量的模型(如DeepSeek V4 Pro)会形成新的价格参照线,逼问所有竞品“贵在哪里”。
  • 今天的模型竞争核心已不再是“谁更强”或“谁更便宜”,而是谁能成为开发者默认愿意反复调用的那个模型,这涉及能力、价格和工具链路径依赖的综合结果。
  1. 01ZenMux观察期内,DeepSeek V4 Pro的日调用量逼近并超过Claude Opus 4.8,且在厂商份额图中DeepSeek的调用量占比持续扩大。
  2. 02研究定义标准Coding/Agent调用篮子为100K input tokens + 1K output tokens,基于Claude Opus 4.8在Claude Code和GPT-5.5在Codex中的真实输入/输出比率(均约100:1)。
  3. 03归一化价格P_m公式:P_m = (p_m-in × 100 + p_m-out × 1) / 1000,单位为美元/标准调用篮子。
  4. 04Value = U_m(归一化日用量)/ P_m(归一化价格),U_m为模型发布后14个工作日内有真实用量日期的中位数日消耗token量。
  5. 05价值天梯图中,DeepSeek V4 Pro排名第一,GLM 5.2紧随其后站上第一梯队,Claude Opus 4.8/4.7/4.6也依然强势。
  6. 06Value Map四象限分析:DeepSeek V4 Pro和V4 Flash处于“低价高用量”区间;Claude Opus系列处于“高价高用量”premium区间;多款GPT低价模型落在“低价低用量”区间。
  7. 07DeepSeek斩杀线挑战中,将Qwen3.7 Max降价82.8%至DeepSeek V4 Pro价格,GLM 5.2降价69.3%,Kimi K2.7 Code降价55.2%,以观察拉平价格后的开发者实际调用选择。
反方 / 局限
  • 研究局限性:ZenMux平台(2024-09-28上线),早于该时间的模型早期数据失真;平台仍在发展,当前token消耗量样本厚度有限;未将缓存命中率/Cache Hit纳入模型,这会显著影响开发者实际支付的有效价格。
  • 文章未讨论的张力:降价后模型厂商能否长期承受利润压缩?部分模型(如Kimi K2.7 Code)可能因接入成本、工具兼容性或模型稳定性等非价格因素被用户放弃,这些因素未被纳入Value分母。
  • 作者暗示但未展开的反方观点:低价策略可能伴随推理成本压力或服务质量下降(如更慢、更不稳定),从而影响长期用量,但这不在当前研究观察窗口内。
27 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

应用场景

平行视角

延伸追问