科技智东西·李水青··AI 生成
独家内幕:美团如何用5万张国产卡训出“龙猫”万亿级模型?
美团自研的万亿参数MoE大模型LongCat-2.0(龙猫2.0)已公开,总参数量1.6万亿,峰值训练动用了超过5万张国产算力卡,是国内首个完全依赖国产算力完成训练与推理全流程的万亿级模型。文章详细披露了团队从2023年初开始、历时三年的国产算力实验:从2560卡到5万卡的渐进扩容、自研算子与软件栈以应对不成熟的生态、解决比特翻转等大规模集群特有的工程难题。该模型已在OpenRouter上匿名上线并进入全球调用量前三,在Agent和编程能力上接近第一梯队水平。适合关注大模型基础设施、国产芯片产业链及系统级工程能力的读者阅读。原文 ↗原文 ↗
核心观点
- ▍美团成功证明了国产算力能够支撑世界级大模型训练,LongCat-2.0是国内首个完全依靠国产算力完成训练与推理全流程的万亿参数模型,峰值训练规模超5万张国产卡。
- ▍未来AI竞争的核心不是单点突破,而是算法、基础设施、芯片三者协同设计的系统级全栈竞争。
- 01LongCat-2.0总参数量1.6万亿,每token激活约480亿参数,采用MoE架构,并提出了ScMoE、零计算专家等原创设计来适配国产硬件特性。
- 02团队从2023年7月启动国产算力适配,经历单算子验证、2560卡、16000卡到5万卡的渐进扩容,2024年春节前后首次跑通端到端训练。
- 03在万卡规模遇到了调度系统无法启动、比特翻转等问题,团队通过建立自动感知和恢复机制将训练稳定性提升至超过92%。
- 04由于国产芯片工具链不完善,团队自研了高性能确定性算子(如FlashAttention反向梯度算子),将性能损失控制在5%左右。
- 05团队实测发现,在部分核心算子计算精度上,国产芯片误差甚至低于主流GPU,因为国产芯片累加位宽更宽。
- 06LongCat-2.0在匿名上线OpenRouter期间调用量长期位居全球前三,在SWE-bench Pro得分59.5、SWE-bench Multilingual得分77.3等评测中接近前沿水平。
反方 / 局限
- — 团队成员承认,国产算力在单颗芯片的参数(工艺制程)上与国际顶尖水平仍有客观差距,这是硬约束。
- — 在国产算力平台上开发算子等底层软件时,初期效率极低(开发周期比CUDA生态差数倍),需依赖自研和AI辅助编程来弥合差距。
16 分钟 · 5 卡片 · 11 资料
读原文 →概念锚点
前置背景
平行视角
未来推演
延伸追问