每百万Token 成本砍六成，出海AI 团队开始重算推理这笔账

7.5

深览指数

科技虎嗅·硅星人·4小时前·AI 生成

每百万Token 成本砍六成，出海AI 团队开始重算推理这笔账

本文通过 Akamai 架构师总监的访谈，揭示了出海AI团队正从模型训练转向推理部署，核心矛盾是：用户增长越快，推理成本越高，亏损越严重。文章以一家亚太AI陪伴公司为例，通过更换推理基础设施将AI与IT成本降低约六成。内容具体指导了如何选卡（H100并非推理最优解）、如何算账（GPU单价、网络流量、三方API调用易被忽略），并强调边缘计算和多云架构是降本增效的关键。适合已有产品、正在规划大规模推理部署的AI公司CTO或技术负责人阅读。

核心观点

▍出海AI团队重心已从模型训练转向推理部署，当前核心挑战是在用户快速增长的同时压低推理成本以实现盈利。
▍H100并非所有推理场景的最佳选择，根据模型大小和延迟要求选择合适的GPU（如RTX PRO 6000）能以更低成本满足需求。

01一家亚太AI情感陪伴公司在业务增长中亏损，通过更换推理基础设施将整体AI与IT成本砍掉约六成，项目才实现盈利。
02消费级游戏卡（如5090）在用户量增长后会面临显存带宽瓶颈、无ECC纠错导致的KV缓存出错风险，以及不支持NVLink导致的扩展性问题。
03推理成本除了GPU每小时单价，还容易被忽略的包括：网络出站流量费（尤其跨境）、三方API费用（如语音识别、图片生成）。
04首个token生成时间若超过两秒，C端用户就会感知到AI卡顿，导致流失；实时语音和在线客服场景要求几百毫秒级的延迟。
05通过边缘计算将推理节点部署在地理上离用户更近的位置（如东南亚、南美、非洲），可以同时降低延迟和数据传输成本。

反方 / 局限

— 并非所有推理都适合下沉到边缘，大模型训练、超大模型的多卡推理（需要高算力集群互联）仍应集中在少数核心数据中心。
— 作者建议的技术栈选择——使用开源加基础设施服务以避免锁定——隐含了与使用大厂私有技术栈（如Bedrock、Vertex AI）之间的权衡，后者可能集成更紧密但锁定风险更高。

李文涛AkamaiH100RTX PRO 6000 BlackwellNVLinkKV缓存Token边缘计算

6 分钟 · 4 卡片 · 12 资料

读原文 →

每百万Token 成本砍六成，出海AI 团队开始重算推理这笔账

前置背景

应用场景

平行视角

延伸追问