5.8
深览指数
科技腾讯新闻·字母AI··AI 生成
GPT-5.6来了:旗舰版碾压GPT-5.5,价格却没涨
OpenAI 发布 GPT-5.6 系列,包含 Sol、Terra、Luna 三档产品,旗舰模型 Sol 性能对标 GPT-5.5 Pro 但定价与 GPT-5.5 标准版持平,主打高性价比。本文对三档模型定位、价格、评测(Terminal-Bench、GeneBench、ExploitBench)、以及「有限预览」背后的美国政府介入痕迹做了介绍。值得关注的是,OpenAI 首次应政府要求进行小范围预览并共享合作伙伴名单,标志着前沿模型发布流程中政府角色的清晰介入。文章信息密度高、但多为产品介绍性内容,缺乏独立判断或反方视角。适合对模型产品动态和 AI 监管政策感兴趣的读者。原文 ↗
核心观点
- ▍GPT-5.6 系列是 OpenAI 的新一代产品,旗舰 Sol 性能超越 GPT-5.5 标准版,但定价对齐 GPT-5.5 标准版,性价比显著提升。
- ▍这是前沿模型发布流程中首次出现清晰的政府介入痕迹,OpenAI 认为不应成为长期默认机制,理由是会延迟用户获得最佳工具。
- 01GPT-5.6 Sol API 价格:输入 5 美元/百万 token,输出 30 美元/百万 token,与 GPT-5.5 标准版同价,而 GPT-5.5 Pro 为 30/180 美元。
- 02GPT-5.6 Sol 在 Terminal-Bench 2.1 中得分为 88.8%,Ultra 模式下得分更高。
- 03GPT-5.6 Terra 在 Terminal-Bench 2.1 中得分 84.3%,与 Claude Fable 5 持平。
- 04GPT-5.6 Sol 在生物学基准 GeneBench v1 上比 GPT-5.5 表现更强,且使用 token 更少。
- 05在网络安全基准 ExploitBench 上,GPT-5.6 Sol 的表现可与 Mythos Preview 媲美,但只用了约三分之一的输出 token。
- 06本次发布为「有限预览」,应美国政府要求,仅在 Codex 和 API 中向小群「值得信赖的合作伙伴」开放,合作伙伴名单已与美国政府共享。
反方 / 局限
- — 文章提到 OpenAI 强调 GPT-5.6 Sol 未达到其 Cyber Critical 门槛,但未深入讨论模型在网络安全方面的潜在滥用风险及其治理难点。
OpenAIGPT-5.6GPT-5.5SolTerraLunaTerminal-Bench 2.1GeneBench v1ExploitBenchMythos PreviewClaude Fable 5UC Berkeley
10 分钟 · 3 卡片 · 6 资料
读原文 →