芯片换了战场，中国公司开打Token仗

7.9

深览指数

科技虎嗅·陈伊凡_YF·7小时前·AI 生成

芯片换了战场，中国公司开打Token仗

本文通过对曦望Sunrise这家从商汤孵化、专攻推理GPU的公司的深度访谈，揭示了AI算力市场的重心正从训练转向推理的产业变局。文章核心洞察在于：推理芯片的设计逻辑与训练芯片截然不同，瓶颈在显存容量与读取速度而非单纯算力，这为国产芯片提供了换道并跑的机会。作者通过拆解曦望芯片的设计取舍与商业模式，论证了国产推理芯片如何通过降低Token成本来创造价值，并预判未来Token将如同流量般成为基础设施，其产业链话语权将集中在能定义单位成本或离需求最近的环节。适合关注AI芯片产业、大模型商业落地及国产替代逻辑的读者阅读。原文 ↗原文 ↗

核心观点

▍AI算力的重心正从训练转向推理，推理专用GPU的市场空白为国产芯片提供了换道并跑、而非单纯追赶英伟达的历史性机遇。
▍推理芯片的设计核心瓶颈在显存容量、读取带宽和通信延迟，而非传统训练的算力密度；曦望因此选择了LPDDR大内存、PCIe Gen6高速通道和软硬同源的技术路线。

01德勤预测2026年推理将吃掉全球AI算力的三分之二，而三年前推理市场几乎不存在；OpenAI每天为ChatGPT推理烧掉超70万美元。
02曦望启望S3芯片采用LPDDR内存方案，显存最高达600GB，为国内最大；综合算力利用率稳定在95%，解决了传统GPU算力空转问题。
03曦望将推理客户分为四类：智算中心（盯每元/每瓦产出Token）、互联网/AI公司（盯低延迟）、大型央国企（盯数据安全）、垂直行业（盯开箱即用），其需求差异化显著。
04到2026年初，中国大模型已在全球拿到定价权：同样Token，中国模型价格仅为国外同行的六分之一到十分之一。
05智谱港股上市不到半年，市值从528亿港元涨至万亿港元，其背后是“国产模型配国芯”叙事获得资本市场认可。
06Agent任务消耗的Token是普通对话的几十倍，后台常驻Agent更是7×24烧Token；模型上下文窗口从千级Token涨至百万级，推理需求呈指数级增长。
07曦望S3对CUDA生态兼容性达99%以上，已有AI应用可零改动迁移；并通过超节点将256颗芯片互联成一个域，扛住万亿参数模型的高并发推理。

反方 / 局限

— 当前Token价格不降反升，是因为需求增速超过供给增速，而非成本定价；但文章未深入探讨当大量同质化推理芯片涌入后，可能引发的价格战和利润率崩塌风险。
— 曦望选择通用GPU路线而非专用ASIC，虽兼顾灵活性与兼容性，但在特定模型效率上可能永远无法超越为它量身定做的ASIC方案，存在“样样通、样样松”的潜在劣势。
— 文章指出“国产芯片和国产模型天然高契合”是关键优势，但并未充分讨论国产芯片在先进制程、EDA工具链、国际生态壁垒等硬约束下的实际挑战。

曦望Sunrise 王湛高洋启望S3 Token 推理GPU 英伟达CUDA 智谱 DeepSeek 商汤科技 LPDDR HBM

22 分钟 · 5 卡片 · 12 资料

读原文 →

芯片换了战场，中国公司开打Token仗

概念锚点

前置背景

平行视角

未来推演

延伸追问