Nvidia 的 Nemotron 3 Ultra：新基准测试正超越 SWE-bench，AI 控制权之战加速

6.7

深览指数

科技Bestblogs·Analytics DeepLearning.AI·06-19 15:00·AI 生成

Nvidia 的 Nemotron 3 Ultra：新基准测试正超越 SWE-bench，AI 控制权之战加速

本期《The Batch》通讯的核心观点是，Anthropic 与美国政府对前沿 AI 模型的访问控制，正作为一种“权力展示”加速全球对 AI 主权和开源替代方案的需求。同时，文章介绍了 DeepSWE、ProgramBench 等三个旨在超越已趋饱和的 SWE-bench 的新智能体编程基准测试。最后，它详细评测了 Nvidia 的 Nemotron 3 Ultra 模型，指出其基于混合 Mamba-Transformer 架构带来的速度优势，但整体性能并非顶尖。本文适合关注 AI 产业格局、模型评测标准及开源 vs 闭源路线之争的从业者。原文 ↗原文 ↗

核心观点

▍Anthropic 和美国政府近期对前沿 AI 模型的访问控制，本质上是权力展示，这非但未巩固垄断，反而会加速全球范围内对 AI 主权和开源替代方案的追求。
▍评估 AI 智能体编程能力的基准测试正在发生代际更迭：以 DeepSWE、ProgramBench 和 ITBench-AA 为代表的新基准，其任务复杂性（功能实现、端到端编程、IT事件诊断）已全面超越过度饱和的 SWE-bench。

01Anthropic 限制其模型被用于竞争性 LLM 研究，而美国对 Claude Fable 的出口管制，这些行为让依赖单一供应商的国家和企业意识到其不稳定性，从而转向投资开源方案。
02DeepSWE 基准测试侧重于 AI 实现功能性需求的能力，而 ITBench-AA 则聚焦于诊断和解决 IT 事件，两者都旨在模拟比 SWE-bench 仅修复漏洞更复杂的真实工作。
03Nvidia 的 Nemotron 3 Ultra 基于混合 Mamba-Transformer 架构，在某些指标上是得分最高的美国开放权重模型，且推理速度显著快于竞品，但整体智能水平低于 DeepSeek V4 Pro 和 Kimi K2.6。
04评估 Claude Fable 5 时面临的根本困难在于：其内置的安全护栏和数据保留政策，使得独立评估者无法直接衡量模型未经审查的真实能力，导致实际可用性能远低于理论峰值。

反方 / 局限

— 尽管模型民主化是趋势，但文中引用观点暗示，平台的成功关键在于其被视为稳定、可靠的合作伙伴，而开源模式在提供稳定性和可靠性方面可能面临挑战。

Anthropic Claude Fable 5 Nvidia Nemotron 3 Ultra SWE-bench DeepSWE ProgramBench ITBench-AA DeepSeek V4 Pro Kimi K2.6 Mamba-Transformer

4 分钟 · 3 卡片 · 8 资料

读原文 →

Nvidia 的 Nemotron 3 Ultra：新基准测试正超越 SWE-bench，AI 控制权之战加速

前置背景

平行视角

延伸追问