7.3
深览指数
科技人人都是产品经理·卡尔的AI沃茨··AI 生成

实测美团LongCat-2.0,国产芯片长出来的万亿大模型

美团基于5万张国产芯片训练的超大规模MoE模型LongCat-2.0,完成了从训练到部署的全链路国产化,总参数1.6万亿,支持1M上下文,并在Agent任务上对标Claude/Gemini。文章作者以开发者亲身测试视角,记录该模型在Claude Code和Codex等真实工作流中的表现,强调了“国产算力跑通万亿大模型”这一事实本身比benchmark排名更具里程碑意义。适合关注AI基础设施国产替代、模型工程落地、Agent工作流研发的深度读者。原文 ↗

核心观点
  • LongCat-2.0的核心意义不在于它是当前最强的模型,而在于首次用国产算力完整跑通了一条从万亿参数模型训练到大规模部署的链路,打破了“没有英伟达高端卡就无法做先进大模型”的行业焦虑。
  1. 01模型总参数1.6万亿,MoE架构每个token仅激活约480亿参数;训练全程使用5万张国产算力芯片,吃掉超过35万亿tokens,运行一个多月,无回滚、无不可恢复的loss突刺。
  2. 02在Terminal-Bench 2.1和SWE-bench Pro等编程Agent任务上,LongCat-2.0基本追平Gemini 3.1 Pro;在FORTE通用Agent任务上,与Claude Opus 4.6五五开。但在IFEval、GPQA-diamond等通用知识和推理项目上,与GPT-5.5、Gemini 3.1 Pro仍有差距。
  3. 03模型支持最大输出128K tokens,最高提供1M上下文窗口,通过LSA稀疏注意力机制(处理超长输入时避免逐字硬啃)和N-gram Embedding(增强对局部语境的敏感度)两项创新来优化Agent工作流中的长上下文稳定性。
  4. 04提供与OpenAI Compatible和Anthropic API生态兼容的接口,开发者仅需更换base_url、API key和模型名即可接入现有工作流。
  5. 05作者实测将其接入Claude Code和Codex,在项目文件整理和联网搜索生成演示文稿两类Agent任务中,模型展现了分阶段规划、先理解环境再执行的良好行为。
反方 / 局限
  • 作者明确承认LongCat-2.0的基础能力(通用知识推理)与顶级闭源模型仍有差距,且Agent实测还需要继续跑以验证稳定性。
  • 文章整体为开发者个人的正面使用体验报告,缺乏独立第三方基准测试和与同级开源模型(如DeepSeek-V3、Qwen3等)的横向对比,结论偏向乐观。
9 分钟 · 5 卡片 · 14 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问