6.7
深览指数
科技Bestblogs·Analytics DeepLearning.AI··AI 生成

Nvidia 的 Nemotron 3 Ultra:新基准测试正超越 SWE-bench,AI 控制权之战加速

本期《The Batch》通讯的核心观点是,Anthropic 与美国政府对前沿 AI 模型的访问控制,正作为一种“权力展示”加速全球对 AI 主权和开源替代方案的需求。同时,文章介绍了 DeepSWE、ProgramBench 等三个旨在超越已趋饱和的 SWE-bench 的新智能体编程基准测试。最后,它详细评测了 Nvidia 的 Nemotron 3 Ultra 模型,指出其基于混合 Mamba-Transformer 架构带来的速度优势,但整体性能并非顶尖。本文适合关注 AI 产业格局、模型评测标准及开源 vs 闭源路线之争的从业者。原文 ↗

核心观点
  • Anthropic 和美国政府近期对前沿 AI 模型的访问控制,本质上是权力展示,这非但未巩固垄断,反而会加速全球范围内对 AI 主权和开源替代方案的追求。
  • 评估 AI 智能体编程能力的基准测试正在发生代际更迭:以 DeepSWE、ProgramBench 和 ITBench-AA 为代表的新基准,其任务复杂性(功能实现、端到端编程、IT事件诊断)已全面超越过度饱和的 SWE-bench。
  1. 01Anthropic 限制其模型被用于竞争性 LLM 研究,而美国对 Claude Fable 的出口管制,这些行为让依赖单一供应商的国家和企业意识到其不稳定性,从而转向投资开源方案。
  2. 02DeepSWE 基准测试侧重于 AI 实现功能性需求的能力,而 ITBench-AA 则聚焦于诊断和解决 IT 事件,两者都旨在模拟比 SWE-bench 仅修复漏洞更复杂的真实工作。
  3. 03Nvidia 的 Nemotron 3 Ultra 基于混合 Mamba-Transformer 架构,在某些指标上是得分最高的美国开放权重模型,且推理速度显著快于竞品,但整体智能水平低于 DeepSeek V4 Pro 和 Kimi K2.6。
  4. 04评估 Claude Fable 5 时面临的根本困难在于:其内置的安全护栏和数据保留政策,使得独立评估者无法直接衡量模型未经审查的真实能力,导致实际可用性能远低于理论峰值。
反方 / 局限
  • 尽管模型民主化是趋势,但文中引用观点暗示,平台的成功关键在于其被视为稳定、可靠的合作伙伴,而开源模式在提供稳定性和可靠性方面可能面临挑战。
4 分钟 · 3 卡片 · 8 资料
读原文 →

前置背景

平行视角

延伸追问