7.6
深览指数
科技Bestblogs·美团 · 技术团队··AI 生成
美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型
美团发布业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数 MoE 模型 LongCat-2.0,总参数量 1.6T,平均激活 48B。文章核心贡献在于披露了在国产算力环境下从零攻克故障率(降低 70% 以上)、训练效率(MFU 提升 1.5 倍)和正确性验证的工程实践细节;同时通过 LongCat Sparse Attention 实现 1M 超长上下文的线性复杂度推理。适合关注大模型落地、国产算力生态及 Agentic Coding 的技术从业者研读。原文 ↗
核心观点
- ▍LongCat-2.0 验证了中国业界已具备在五万卡国产算力集群上从零完成万亿参数大模型全流程训练与推理的工程能力,而非仅仅‘能训出’参数规模。
- 01总参数 1.6T,平均激活 48B(动态范围 33B-56B),训练数据超 30T tokens,采用 MoE 架构及零计算专家 + ScMoE 实现 token 级动态激活。
- 02工程层面,团队从稳定性、正确性、效率三方面攻克国产算力挑战,将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超过 1T tokens/day。
- 03架构创新包括 LongCat Sparse Attention(LSA)将长文本计算复杂度从平方级降至线性级,支持 1M 上下文;MOPD 架构融合 Agent、Reasoning、Interaction 三组专家。
- 04在 SWE-bench Pro 评分 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;SWE-bench Multilingual 77.3,与 Claude Opus 4.6 持平。
4 分钟 · 5 卡片 · 15 资料
读原文 →