8.2
深览指数
科技腾讯新闻·智东西··AI 生成
美团如何用5万张国产卡训出“龙猫”万亿级模型?
美团发布LongCat-2.0(龙猫2.0),一个1.6万亿参数、每token激活480亿参数的MoE大模型,匿名上线OpenRouter期间跻身全球调用量前三。该模型是国内首个完全依靠5万张国产算力卡完成训练与推理全流程的万亿参数模型,峰值训练规模创国产算力平台之最。文章详细复盘了团队从2023年开始的三年国产算力实验:如何从行业认为“国产卡只能做推理”的共识出发,在工具链薄弱、比特翻转、大规模调度异常等工程极限下,通过自研算子、确定性计算和渐进扩容路径,系统性证明国产算力支撑世界级大模型训练的可行性。适合关注国产芯片生态、大模型工程实践及美团技术战略的从业者阅读。原文 ↗
核心观点
- ▍国产算力能够支撑世界级万亿参数大模型的训练与推理,其障碍并非原理性不可跨越,而是可以通过系统性工程突破克服的复杂度问题。
- ▍国产大模型架构需要算法与工程的Co-Design,针对国产芯片显存、带宽、通信性能等特点做专门设计,而非简单复现主流GPU生态的架构。
- 01LongCat-2.0总参数量1.6万亿,每token激活约480亿参数,采用MoE架构,在SWE-bench Pro得分59.5,超过Gemini 3.1 Pro(54.2),在SWE-bench Multilingual达77.3,接近Claude Opus 4.6(77.8)。
- 02该模型匿名上线OpenRouter期间,在Hermes、Claude Code和OpenClaw三大Agent模型中分别位列第一、第二和第三,调用量长期全球前三。
- 03团队经历了明确的渐进扩容路径:2023年7月启动适配,2024年春节前后跑通端到端训练,2024年7月交付超16000卡集群,最终扩展至5万卡规模。
- 04团队自研高性能确定性FlashAttention反向梯度算子,将性能损失从20-70倍控制在5%左右;自研Scatter类算子,将性能提升数十倍,支撑整网确定性训练。
- 05团队发现并解决了万卡级别的“比特翻转”问题,通过自动感知和恢复机制使训练稳定性超过92%,月均日故障率降低70%。
- 06团队成员以CPU FP64精度为基准实测发现,国产算力在部分核心算子上的计算误差低于主流芯片,原因是其累加位宽更宽。
- 07LongCat-2.0提出ScMoE、零计算专家等原创设计,其中零计算专家机制使激活参数量在330亿到560亿间动态变化,是业界首个实现此机制的大规模MoE模型。
- 08团队通过大Expert Parallelism聚合访存带宽,结合上下文并行容纳百万级长上下文,算子层面实现精细控核与SuperKernel内联优化,极限TPOT接近行业主流水平。
反方 / 局限
- — 单颗国产芯片的工艺制程与国际顶尖水平仍有差距,这是客观现实,需依靠系统集成和算法-基础设施-芯片三方协同设计来弥补。
- — 文章未详述LongCat-2.0与同参数规模的主流模型在训练成本(电力、时间)上的直接对比,也未说明国产算力训练是否在性价比上具备优势。
美团LongCat-2.0龙猫团队智东西OpenRouterHermesClaude CodeOpenClawMoEScMoESWE-bench比特翻转零计算专家确定性算子FlashAttention侯龙
13 分钟 · 4 卡片 · 7 资料
读原文 →