美团如何用5万张国产卡训出“龙猫”万亿级模型？

8.2

深览指数

科技腾讯新闻·智东西·7小时前·AI 生成

美团如何用5万张国产卡训出“龙猫”万亿级模型？

美团发布LongCat-2.0（龙猫2.0），一个1.6万亿参数、每token激活480亿参数的MoE大模型，匿名上线OpenRouter期间跻身全球调用量前三。该模型是国内首个完全依靠5万张国产算力卡完成训练与推理全流程的万亿参数模型，峰值训练规模创国产算力平台之最。文章详细复盘了团队从2023年开始的三年国产算力实验：如何从行业认为“国产卡只能做推理”的共识出发，在工具链薄弱、比特翻转、大规模调度异常等工程极限下，通过自研算子、确定性计算和渐进扩容路径，系统性证明国产算力支撑世界级大模型训练的可行性。适合关注国产芯片生态、大模型工程实践及美团技术战略的从业者阅读。原文 ↗原文 ↗

核心观点

▍国产算力能够支撑世界级万亿参数大模型的训练与推理，其障碍并非原理性不可跨越，而是可以通过系统性工程突破克服的复杂度问题。
▍国产大模型架构需要算法与工程的Co-Design，针对国产芯片显存、带宽、通信性能等特点做专门设计，而非简单复现主流GPU生态的架构。

01LongCat-2.0总参数量1.6万亿，每token激活约480亿参数，采用MoE架构，在SWE-bench Pro得分59.5，超过Gemini 3.1 Pro（54.2），在SWE-bench Multilingual达77.3，接近Claude Opus 4.6（77.8）。
02该模型匿名上线OpenRouter期间，在Hermes、Claude Code和OpenClaw三大Agent模型中分别位列第一、第二和第三，调用量长期全球前三。
03团队经历了明确的渐进扩容路径：2023年7月启动适配，2024年春节前后跑通端到端训练，2024年7月交付超16000卡集群，最终扩展至5万卡规模。
04团队自研高性能确定性FlashAttention反向梯度算子，将性能损失从20-70倍控制在5%左右；自研Scatter类算子，将性能提升数十倍，支撑整网确定性训练。
05团队发现并解决了万卡级别的“比特翻转”问题，通过自动感知和恢复机制使训练稳定性超过92%，月均日故障率降低70%。
06团队成员以CPU FP64精度为基准实测发现，国产算力在部分核心算子上的计算误差低于主流芯片，原因是其累加位宽更宽。
07LongCat-2.0提出ScMoE、零计算专家等原创设计，其中零计算专家机制使激活参数量在330亿到560亿间动态变化，是业界首个实现此机制的大规模MoE模型。
08团队通过大Expert Parallelism聚合访存带宽，结合上下文并行容纳百万级长上下文，算子层面实现精细控核与SuperKernel内联优化，极限TPOT接近行业主流水平。

反方 / 局限

— 单颗国产芯片的工艺制程与国际顶尖水平仍有差距，这是客观现实，需依靠系统集成和算法-基础设施-芯片三方协同设计来弥补。
— 文章未详述LongCat-2.0与同参数规模的主流模型在训练成本（电力、时间）上的直接对比，也未说明国产算力训练是否在性价比上具备优势。

美团 LongCat-2.0 龙猫团队智东西 OpenRouter Hermes Claude Code OpenClaw MoE ScMoE SWE-bench 比特翻转零计算专家确定性算子 FlashAttention 侯龙

13 分钟 · 4 卡片 · 7 资料

读原文 →

美团如何用5万张国产卡训出“龙猫”万亿级模型？

前置背景

平行视角

未来推演

延伸追问