6.9
深览指数
科技腾讯新闻·新智元··AI 生成
中国第一,直逼OpenAI!神秘“扫地僧”冲到全球前七
文章追踪了一个名为MopMonk(扫地僧)的神秘AI Agent在CyberGym漏洞挖掘榜单上取得全球第七、中国第一成绩的事件。作者深入分析了CyberGym榜单作为AI安全领域权威基准的难度,指出其核心考核的不是模型知识,而是Agent在封闭、断网环境下的长程行动力。文章的核心贡献在于,揭示了MopMonk成功的胜负手是名为Harness的Agent协调层,而非单纯的基座模型能力,并分析了其开源技术报告中基于结构化记忆和多Agent并行探索的方法。适合关注AI Agent工程化、AI安全攻防实战以及国产开源模型应用落地的深度读者阅读,而非追逐热点标题的普通资讯受众。原文 ↗
核心观点
- ▍在CyberGym这类真实攻防任务中,决定胜负的关键正从模型参数规模转向Agent的执行能力,其中Agent的协调层Harness的工程厚度比单纯堆砌参数具有更高的长期复利价值。
- 01一个名为MopMonk(扫地僧)的神秘AI Agent在CyberGym榜单上以73.1%的成功率排名全球第七,仅次于OpenAI,创中国团队历史新高。
- 02CyberGym基准测试体量空前,包含1507个漏洞实例、188个开源项目,全部来自Google OSS-Fuzz的真实历史漏洞,题量是此前最大公开基准的7.5倍。
- 03CyberGym的核心考核点并非识别漏洞,而是生成PoC(Proof of Concept)输入,且必须在漏洞版本上触发、修复版本上失效,执行环境封闭、断网。
- 04MopMonk基座模型为开源的MiniMax M3,该模型在SWE-Bench Pro、Terminal-Bench 2.1等Agent编码基准上表现亮眼,具备1M超长上下文和原生多模态能力。
- 05MopMonk公开的技术报告指出,其核心创新在于一套围绕“漏洞记忆”设计的Harness,通过结构化记忆、记忆驱动的漏洞挖掘和共享记忆的多Agent并行探索三个招式,将模型能力转化为执行力。
- 06文章指出,一套经过真实战场打磨的Harness具有复利属性,可以跨越基座模型的迭代持续积累价值,其长期价值可能超过继续堆砌参数。
反方 / 局限
- — 文章并未深度探讨Harness方法是否具有通用性,例如在不同领域或不同安全任务(如恶意代码生成而非漏洞挖掘)上是否同样有效,其价值是否存在边界。
- — MopMonk团队身份完全未知,因此关于其动机、团队背景、技术原创性的所有分析(如暗示与MiniMax关联、或是AI安全初创公司)均为作者基于有限线索的推测,缺乏实证。
14 分钟 · 4 卡片 · 6 资料
读原文 →