6.9
深览指数
科技腾讯新闻·AI寒武纪··AI 生成
OpenRouter发布2026最值得关注的“开源F4”,开源追上闭源了,差距只剩3到6个月
OpenRouter基于2026年6月的数据,从智力指数、价格、速度和适用场景四个维度,筛选出四个最具决定性的开源大模型:DeepSeek V4 Flash、GLM 5.2、MiniMax M3和NVIDIA Nemotron 3 Ultra。文章的核心判断是,开源与闭源的差距已稳定在3-6个月,在特定场景下(代码生成、复杂规划、多模态理解、企业级部署)开源模型已能媲美甚至替代闭源模型,且成本极低。对于正在评估模型选型、控制AI成本的企业技术决策者,本文提供了一个清晰的对标框架和选型指南。原文 ↗
核心观点
- 01DeepSeek V4 Flash在SWE-bench Verified得分79.0%,与Pro版(80.6%)和超大杯版本差距在1.6分内,而输出成本仅为GPT-5.5的一百五十分之一。官方API输入价格0.14美元/百万token,带缓存折扣低至0.029美元,且已成为永久价格。
- 02GLM 5.2在Artificial Analysis智力指数榜单得分51分,为开源模型第一,距离闭源的Claude Fable 5只差5分。在智能体基准测试中基本与GPT-5.5 xhigh版本打平。均价为每百万token输入0.447美元、输出3.31美元。
- 03MiniMax M3是四个模型里唯一原生支持文本、图表和视频理解的模型,在真实智能体测试中表现与Claude Sonnet 4.6持平。价格为每百万token输入0.098美元、输出1.21美元。
- 04NVIDIA Nemotron 3 Ultra是智力指数第二的开源模型(48分),采用Mamba-2与Transformer混合MoE架构,使用NVFP4精度。英伟达开源了训练数据、配方、评估工具和强化学习基础设施。
- 05文章指出,“在过去长达18个月的时间里,开源与闭源的差距稳定保持在3到6个月之间”,且“闭源大厂完全没有甩开开源阵营的迹象”。
反方 / 局限
- — 文章承认,闭源模型的前沿能力会继续进化,当智力需求固定时使用成本会下降——这意味着远期开源的优势并非绝对。同时,DeepSeek V4 Flash在写作和语气把控上表现一般,提示词需非常具体。
- — GLM 5.2和MiniMax M3都是“话痨”模型,思考过程会消耗大量输出token,导致实际使用总价可能不低。MiniMax M3使用自家社区协议而非MIT协议,商业使用需加署名。
- — 美国出口管制新规导致Anthropic大规模禁用闭源模型的海外访问,这是推动企业转投开源如GLM 5.2的短期政策因素,而非模型自身能力带来的必然趋势。
OpenRouterDeepSeek V4 FlashGLM 5.2MiniMax M3NVIDIA Nemotron 3 UltraClaude Fable 5GPT-5.5SWE-bench VerifiedArtificial AnalysisMamba-2MIT协议MoE
8 分钟 · 3 卡片 · 9 资料
读原文 →