7.5
深览指数
科技虎嗅·硅星人··AI 生成
每百万Token 成本砍六成,出海AI 团队开始重算推理这笔账
本文通过 Akamai 架构师总监的访谈,揭示了出海AI团队正从模型训练转向推理部署,核心矛盾是:用户增长越快,推理成本越高,亏损越严重。文章以一家亚太AI陪伴公司为例,通过更换推理基础设施将AI与IT成本降低约六成。内容具体指导了如何选卡(H100并非推理最优解)、如何算账(GPU单价、网络流量、三方API调用易被忽略),并强调边缘计算和多云架构是降本增效的关键。适合已有产品、正在规划大规模推理部署的AI公司CTO或技术负责人阅读。
核心观点
- ▍出海AI团队重心已从模型训练转向推理部署,当前核心挑战是在用户快速增长的同时压低推理成本以实现盈利。
- ▍H100并非所有推理场景的最佳选择,根据模型大小和延迟要求选择合适的GPU(如RTX PRO 6000)能以更低成本满足需求。
- 01一家亚太AI情感陪伴公司在业务增长中亏损,通过更换推理基础设施将整体AI与IT成本砍掉约六成,项目才实现盈利。
- 02消费级游戏卡(如5090)在用户量增长后会面临显存带宽瓶颈、无ECC纠错导致的KV缓存出错风险,以及不支持NVLink导致的扩展性问题。
- 03推理成本除了GPU每小时单价,还容易被忽略的包括:网络出站流量费(尤其跨境)、三方API费用(如语音识别、图片生成)。
- 04首个token生成时间若超过两秒,C端用户就会感知到AI卡顿,导致流失;实时语音和在线客服场景要求几百毫秒级的延迟。
- 05通过边缘计算将推理节点部署在地理上离用户更近的位置(如东南亚、南美、非洲),可以同时降低延迟和数据传输成本。
反方 / 局限
- — 并非所有推理都适合下沉到边缘,大模型训练、超大模型的多卡推理(需要高算力集群互联)仍应集中在少数核心数据中心。
- — 作者建议的技术栈选择——使用开源加基础设施服务以避免锁定——隐含了与使用大厂私有技术栈(如Bedrock、Vertex AI)之间的权衡,后者可能集成更紧密但锁定风险更高。
李文涛AkamaiH100RTX PRO 6000 BlackwellNVLinkKV缓存Token边缘计算
6 分钟 · 4 卡片 · 12 资料
读原文 →