科技虎嗅·陈伊凡_YF··AI 生成
芯片换了战场,中国公司开打Token仗
本文通过对曦望Sunrise这家从商汤孵化、专攻推理GPU的公司的深度访谈,揭示了AI算力市场的重心正从训练转向推理的产业变局。文章核心洞察在于:推理芯片的设计逻辑与训练芯片截然不同,瓶颈在显存容量与读取速度而非单纯算力,这为国产芯片提供了换道并跑的机会。作者通过拆解曦望芯片的设计取舍与商业模式,论证了国产推理芯片如何通过降低Token成本来创造价值,并预判未来Token将如同流量般成为基础设施,其产业链话语权将集中在能定义单位成本或离需求最近的环节。适合关注AI芯片产业、大模型商业落地及国产替代逻辑的读者阅读。原文 ↗原文 ↗
核心观点
- ▍AI算力的重心正从训练转向推理,推理专用GPU的市场空白为国产芯片提供了换道并跑、而非单纯追赶英伟达的历史性机遇。
- ▍推理芯片的设计核心瓶颈在显存容量、读取带宽和通信延迟,而非传统训练的算力密度;曦望因此选择了LPDDR大内存、PCIe Gen6高速通道和软硬同源的技术路线。
- 01德勤预测2026年推理将吃掉全球AI算力的三分之二,而三年前推理市场几乎不存在;OpenAI每天为ChatGPT推理烧掉超70万美元。
- 02曦望启望S3芯片采用LPDDR内存方案,显存最高达600GB,为国内最大;综合算力利用率稳定在95%,解决了传统GPU算力空转问题。
- 03曦望将推理客户分为四类:智算中心(盯每元/每瓦产出Token)、互联网/AI公司(盯低延迟)、大型央国企(盯数据安全)、垂直行业(盯开箱即用),其需求差异化显著。
- 04到2026年初,中国大模型已在全球拿到定价权:同样Token,中国模型价格仅为国外同行的六分之一到十分之一。
- 05智谱港股上市不到半年,市值从528亿港元涨至万亿港元,其背后是“国产模型配国芯”叙事获得资本市场认可。
- 06Agent任务消耗的Token是普通对话的几十倍,后台常驻Agent更是7×24烧Token;模型上下文窗口从千级Token涨至百万级,推理需求呈指数级增长。
- 07曦望S3对CUDA生态兼容性达99%以上,已有AI应用可零改动迁移;并通过超节点将256颗芯片互联成一个域,扛住万亿参数模型的高并发推理。
反方 / 局限
- — 当前Token价格不降反升,是因为需求增速超过供给增速,而非成本定价;但文章未深入探讨当大量同质化推理芯片涌入后,可能引发的价格战和利润率崩塌风险。
- — 曦望选择通用GPU路线而非专用ASIC,虽兼顾灵活性与兼容性,但在特定模型效率上可能永远无法超越为它量身定做的ASIC方案,存在“样样通、样样松”的潜在劣势。
- — 文章指出“国产芯片和国产模型天然高契合”是关键优势,但并未充分讨论国产芯片在先进制程、EDA工具链、国际生态壁垒等硬约束下的实际挑战。
22 分钟 · 5 卡片 · 12 资料
读原文 →概念锚点
前置背景
平行视角
未来推演
延伸追问