6.7
深览指数
科技微博·极客公园··AI 生成
GPT-5.6 来了,超越 Mythos,成本比 5.5 降一半
OpenAI 在两周内密集发布 GPT-5.6 三件套(Sol/Terra/Luna)、自研推理芯片 Jalapeño 并扩展安全平台 Daybreak,标志着从模型公司向 AI 全栈控制者转型。文章剖析了三个模型的分层逻辑与定价策略,指出企业真正挑战在于如何量化工作流并做对模型选型,而非简单堆叠最贵的旗舰模型。适合关注 AI 产业动态、模型选型与企业级应用的读者阅读。原文 ↗
核心观点
- ▍GPT-5.6 的发布不是一次简单的模型更新,而是 OpenAI「基础设施攻势」的一环,标志着整体模型时代结束——从一台大模型通吃所有任务,转向 Sol/Terra/Luna 三层分级、各取所需的架构,企业需量化工作流才能做对的选型决策。
- ▍OpenAI 六月两周内的四件事(退役旧模型、扩展安全平台、发布自研芯片、上线新旗舰)表明其正从「做模型的公司」变成「控制 AI 全栈的公司」,模型、安全(Daybreak)、芯片(Jalapeño)三线并进。
- 01GPT-5.6 Sol 在 Terminal-Bench 2.1 上得分 91.9%,超过 Claude Mythos 5(88.0%)和 Gemini 3.1 Pro Preview(70.7%);在 GeneBench v1 上得分 30%,高于 GPT-5.5(22%),且消耗 Token 更少。
- 02在 ExploitBench 上,Sol 与 Anthropic Mythos Preview 基本打平,但输出 Token 仅需后者约三分之一。
- 03定价策略:Terra(输入 2.5 美元/输出 15 美元)性能接近 GPT-5.5,价格减半;Luna(输入 1 美元/输出 6 美元)为 OpenAI 目前最低价,多项测试接近 GPT-5.5 水平。
- 04自研推理芯片 Jalapeño 9 个月从设计到流片,Broadcom CEO 称每 Token 推理成本比现有 Nvidia GPU 降低约 50%,年底部署到吉瓦级数据中心。
- 05Daybreak 安全计划中,GPT-5.5-Cyber 在 CyberGym 上拿到 85.6% 最高单模型得分,Codex Security 插件能独立发现开源项目中已知 CVE,形成从发现到修复的闭环。
反方 / 局限
- — Sol/Terra/Luna 三层结构虽逻辑清晰,但企业选型的关键挑战是「量化工作流」——如果不真正核算自己不同任务的失败率和工程师时间成本,仅凭直觉选模型,Sol 可能并不值得多花一倍的钱。
- — Luna 的定位是防御性的:GLM-5.2(开源,输入 1.4 美元/输出 4.4 美元)和 DeepSeek V4 Pro(输出 0.87 美元/百万 Token)在低价市场构成明显竞争,OpenAI 若不布子,这块市场将完全属于别人。
OpenAIGPT-5.6SolTerraLunaJalapeñoDaybreakClaude Mythos 5AnthropicGoogleGemini 3.1 Pro PreviewCerebrasBroadcomHackerOneTrail of BitsGLM-5.2智谱DeepSeek V4 ProTerminal-Bench 2.1GeneBench v1ExploitBenchCyberGym桦林舞王靖宇
7 分钟 · 4 卡片 · 12 资料
读原文 →