7.1
深览指数
科技虎嗅·陈伊凡_YF··AI 生成

半年20余倍增长,一个中国Token工厂的生意飞轮

本文以无问芯穹为案例,揭示AI推理需求爆发如何催生了一种「Token工厂」模式:不造芯片、不训大模型,而是通过软件算法调度优化多品牌芯片算力,转化为标准化Token进行计费。作者核心判断是,AI产业价值重心正从训练转向推理,智能体场景推动Token调用量20余倍增长,国产芯片在P/D分离等细分场景找到真实落地位置。文章提供了具体增速数据(95%为智能体场景)、性价比提升指标(5-10倍)及商业模式细节(按Token计费、飞轮效应),适合关注AI产业链投资、算力基础设施及技术商业化落地的读者。原文 ↗

核心观点
  • AI推理市场正在超过训练市场,2026年全球推理基础设施资本支出预计达680亿美元,而训练为450亿美元;推理需求爆发使产业链价值重心下移,Token工厂这类基础设施服务商正从「管道」变成高价值的中枢。
  • 无问芯穹的「Token工厂」模式卡住了一个结构洞——不造芯片、不训模型,而是通过Agentic Infra体系调度优化多品牌芯片算力,以Token作为统一计费单位,实现技术优化成本→毛利率→再投入的正向飞轮。
  1. 01无问芯穹披露,2025年12月至2026年4月底,Agentic MaaS平台Token调用量增速超过20倍,其中95%以上为智能体场景(完整任务而非简单聊天)。
  2. 02在万亿参数大模型场景下,无问芯穹通过软硬协同优化,实现了5到10倍的性价比提升(单位时间的Token产出量及系统稳定性)。
  3. 03无问芯穹的AI生产力公式:AI生产力=智能规模×Token生产效率×Token价值转化;Token业务已实现商业化闭环,按Token计费(类似广告CPM),用户无需关心底层芯片。
  4. 04国产芯片在Prefill(计算密集型)场景已可落地,而Decode(访存+通信密集)对芯片生态要求更高;国产芯片已从「能不能用」进入「好不好用」阶段。
  5. 05代码生成和线上营销场景最早爆发,原因是这类任务的全流程已在数字世界闭环,适合AI自我迭代。
  6. 06夏立雪将Token爆发类比为移动互联网从3G到4G,认为核心产物不是单一杀手应用,而是「AI型组织」——10-20人规模的、充分使用AI重构内部分工的小团队。
反方 / 局限
  • 作者承认,若AI范式发生根本性突破(下一个范式),当前商业模式可能面临调整,但认为范式不会跳变,且变化反而可能带来新机会。
  • 文章未充分讨论竞争对手威胁(如华为、中兴的「超节点」方案),仅以「中立第三方」「系统化滚动式创新」作为壁垒,缺乏与系统厂商方案的直接成本/性能对比。
无问芯穹夏立雪清华大学电子工程系Token工厂Agentic MaaSPrefill/Decode分离AI型组织模速空间
18 分钟 · 3 卡片 · 9 资料
读原文 →

前置背景

平行视角

延伸追问