中国第一，直逼OpenAI！神秘“扫地僧”冲到全球前七

6.9

深览指数

科技腾讯新闻·新智元·6小时前·AI 生成

中国第一，直逼OpenAI！神秘“扫地僧”冲到全球前七

文章追踪了一个名为MopMonk（扫地僧）的神秘AI Agent在CyberGym漏洞挖掘榜单上取得全球第七、中国第一成绩的事件。作者深入分析了CyberGym榜单作为AI安全领域权威基准的难度，指出其核心考核的不是模型知识，而是Agent在封闭、断网环境下的长程行动力。文章的核心贡献在于，揭示了MopMonk成功的胜负手是名为Harness的Agent协调层，而非单纯的基座模型能力，并分析了其开源技术报告中基于结构化记忆和多Agent并行探索的方法。适合关注AI Agent工程化、AI安全攻防实战以及国产开源模型应用落地的深度读者阅读，而非追逐热点标题的普通资讯受众。原文 ↗原文 ↗

核心观点

▍在CyberGym这类真实攻防任务中，决定胜负的关键正从模型参数规模转向Agent的执行能力，其中Agent的协调层Harness的工程厚度比单纯堆砌参数具有更高的长期复利价值。

01一个名为MopMonk（扫地僧）的神秘AI Agent在CyberGym榜单上以73.1%的成功率排名全球第七，仅次于OpenAI，创中国团队历史新高。
02CyberGym基准测试体量空前，包含1507个漏洞实例、188个开源项目，全部来自Google OSS-Fuzz的真实历史漏洞，题量是此前最大公开基准的7.5倍。
03CyberGym的核心考核点并非识别漏洞，而是生成PoC（Proof of Concept）输入，且必须在漏洞版本上触发、修复版本上失效，执行环境封闭、断网。
04MopMonk基座模型为开源的MiniMax M3，该模型在SWE-Bench Pro、Terminal-Bench 2.1等Agent编码基准上表现亮眼，具备1M超长上下文和原生多模态能力。
05MopMonk公开的技术报告指出，其核心创新在于一套围绕“漏洞记忆”设计的Harness，通过结构化记忆、记忆驱动的漏洞挖掘和共享记忆的多Agent并行探索三个招式，将模型能力转化为执行力。
06文章指出，一套经过真实战场打磨的Harness具有复利属性，可以跨越基座模型的迭代持续积累价值，其长期价值可能超过继续堆砌参数。

反方 / 局限

— 文章并未深度探讨Harness方法是否具有通用性，例如在不同领域或不同安全任务（如恶意代码生成而非漏洞挖掘）上是否同样有效，其价值是否存在边界。
— MopMonk团队身份完全未知，因此关于其动机、团队背景、技术原创性的所有分析（如暗示与MiniMax关联、或是AI安全初创公司）均为作者基于有限线索的推测，缺乏实证。

MopMonk CyberGym Harness MiniMax M3 UC Berkeley OpenAI Google OSS-Fuzz

14 分钟 · 4 卡片 · 6 资料

读原文 →

中国第一，直逼OpenAI！神秘“扫地僧”冲到全球前七

前置背景

技术原理

未来推演

延伸追问