7.5
深览指数
科技虎嗅·硅星人··AI 生成

每百万Token 成本砍六成,出海AI 团队开始重算推理这笔账

本文通过 Akamai 架构师总监的访谈,揭示了出海AI团队正从模型训练转向推理部署,核心矛盾是:用户增长越快,推理成本越高,亏损越严重。文章以一家亚太AI陪伴公司为例,通过更换推理基础设施将AI与IT成本降低约六成。内容具体指导了如何选卡(H100并非推理最优解)、如何算账(GPU单价、网络流量、三方API调用易被忽略),并强调边缘计算和多云架构是降本增效的关键。适合已有产品、正在规划大规模推理部署的AI公司CTO或技术负责人阅读。

核心观点
  • 出海AI团队重心已从模型训练转向推理部署,当前核心挑战是在用户快速增长的同时压低推理成本以实现盈利。
  • H100并非所有推理场景的最佳选择,根据模型大小和延迟要求选择合适的GPU(如RTX PRO 6000)能以更低成本满足需求。
  1. 01一家亚太AI情感陪伴公司在业务增长中亏损,通过更换推理基础设施将整体AI与IT成本砍掉约六成,项目才实现盈利。
  2. 02消费级游戏卡(如5090)在用户量增长后会面临显存带宽瓶颈、无ECC纠错导致的KV缓存出错风险,以及不支持NVLink导致的扩展性问题。
  3. 03推理成本除了GPU每小时单价,还容易被忽略的包括:网络出站流量费(尤其跨境)、三方API费用(如语音识别、图片生成)。
  4. 04首个token生成时间若超过两秒,C端用户就会感知到AI卡顿,导致流失;实时语音和在线客服场景要求几百毫秒级的延迟。
  5. 05通过边缘计算将推理节点部署在地理上离用户更近的位置(如东南亚、南美、非洲),可以同时降低延迟和数据传输成本。
反方 / 局限
  • 并非所有推理都适合下沉到边缘,大模型训练、超大模型的多卡推理(需要高算力集群互联)仍应集中在少数核心数据中心。
  • 作者建议的技术栈选择——使用开源加基础设施服务以避免锁定——隐含了与使用大厂私有技术栈(如Bedrock、Vertex AI)之间的权衡,后者可能集成更紧密但锁定风险更高。
李文涛AkamaiH100RTX PRO 6000 BlackwellNVLinkKV缓存Token边缘计算
6 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

应用场景

平行视角

延伸追问