GPT-5.6 来了，超越 Mythos，成本比 5.5 降一半

6.7

深览指数

科技微博·极客公园·昨天 18:06·AI 生成

GPT-5.6 来了，超越 Mythos，成本比 5.5 降一半

OpenAI 在两周内密集发布 GPT-5.6 三件套（Sol/Terra/Luna）、自研推理芯片 Jalapeño 并扩展安全平台 Daybreak，标志着从模型公司向 AI 全栈控制者转型。文章剖析了三个模型的分层逻辑与定价策略，指出企业真正挑战在于如何量化工作流并做对模型选型，而非简单堆叠最贵的旗舰模型。适合关注 AI 产业动态、模型选型与企业级应用的读者阅读。原文 ↗原文 ↗

核心观点

▍GPT-5.6 的发布不是一次简单的模型更新，而是 OpenAI「基础设施攻势」的一环，标志着整体模型时代结束——从一台大模型通吃所有任务，转向 Sol/Terra/Luna 三层分级、各取所需的架构，企业需量化工作流才能做对的选型决策。
▍OpenAI 六月两周内的四件事（退役旧模型、扩展安全平台、发布自研芯片、上线新旗舰）表明其正从「做模型的公司」变成「控制 AI 全栈的公司」，模型、安全（Daybreak）、芯片（Jalapeño）三线并进。

01GPT-5.6 Sol 在 Terminal-Bench 2.1 上得分 91.9%，超过 Claude Mythos 5（88.0%）和 Gemini 3.1 Pro Preview（70.7%）；在 GeneBench v1 上得分 30%，高于 GPT-5.5（22%），且消耗 Token 更少。
02在 ExploitBench 上，Sol 与 Anthropic Mythos Preview 基本打平，但输出 Token 仅需后者约三分之一。
03定价策略：Terra（输入 2.5 美元/输出 15 美元）性能接近 GPT-5.5，价格减半；Luna（输入 1 美元/输出 6 美元）为 OpenAI 目前最低价，多项测试接近 GPT-5.5 水平。
04自研推理芯片 Jalapeño 9 个月从设计到流片，Broadcom CEO 称每 Token 推理成本比现有 Nvidia GPU 降低约 50%，年底部署到吉瓦级数据中心。
05Daybreak 安全计划中，GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 最高单模型得分，Codex Security 插件能独立发现开源项目中已知 CVE，形成从发现到修复的闭环。

反方 / 局限

— Sol/Terra/Luna 三层结构虽逻辑清晰，但企业选型的关键挑战是「量化工作流」——如果不真正核算自己不同任务的失败率和工程师时间成本，仅凭直觉选模型，Sol 可能并不值得多花一倍的钱。
— Luna 的定位是防御性的：GLM-5.2（开源，输入 1.4 美元/输出 4.4 美元）和 DeepSeek V4 Pro（输出 0.87 美元/百万 Token）在低价市场构成明显竞争，OpenAI 若不布子，这块市场将完全属于别人。

7 分钟 · 4 卡片 · 12 资料

读原文 →

GPT-5.6 来了，超越 Mythos，成本比 5.5 降一半

前置背景

平行视角

未来推演

延伸追问