退钱！Claude 4.8连夜大降智，GPT-5.6算力遭“腰斩”

6.0

深览指数

科技腾讯新闻·新智元·昨天 18:48·AI 生成

退钱！Claude 4.8连夜大降智，GPT-5.6算力遭“腰斩”

AI社区近期爆发「降智」争议：一篇自测贴文揭示，OpenAI 疑似在 Codex 平台灰度测试低思考预算版的 GPT-5.6-sol，Anthropic 的 Claude Opus 4.8 则被大量用户指控推理能力断崖式下降。文章核心论点不是单纯抱怨质量，而是指控 AI 公司可能通过静默降级、暗中减配来节省推理成本。本文特色在于提供了「Juice 测试」这一用户自检手段，并提出了一个大胆猜测：Opus 4.8 发布时的惊艳表现可能是临时算力加成的假象。适合关注 AI 产业透明度、模型质量监控，以及「订阅制下用户权益」议题的读者。原文 ↗原文 ↗

核心观点

▍AI 厂商可能通过静默降级和灰度测试低成本版本来削减算力成本，用户实际使用的模型质量与宣传不符，存在透明度与信任危机。
▍「Juice 测试」揭示 OpenAI 在 Codex 平台中将部分用户的 GPT-5.5 请求路由至路由名为「gpt-5.6-sol」的模型，其思考预算返回值从 768 骤降至 128。

01用户通过向 GPT-5.5 xhigh 发送特定 XML 代码，可检测隐藏推理算力配额「Juice」；被灰度到 gpt-5.6-sol 的用户返回值为 128，而正常 5.5 为 768。
02Reddit 的 r/Anthropic 板块被投诉淹没：用户声称 Opus 4.8 Max 性能弱于 Haiku，不思考、记忆丧失、陷入「杠精」模式，被指「物理切脑」。
03一位拥有 1000 亿 token 使用量的用户反馈 Claude 近期一周表现「愚蠢至极」，Opus 4.8 进入「老年痴呆模式」，高思考模式下仍秒回错误答案。

反方 / 局限

— 文章本身主要基于社区用户的主观反馈和社交媒体截图，缺乏来自 OpenAI 或 Anthropic 的官方数据、API 调用日志或成本核算的独立验证。
— 「GPT-5.6」名称可能只是 Codex 内部测试路由标识，不一定代表正式版本或直接向用户开放的模型，亦可能为 A/B 测试中的对比模型而非「减配版」。

OpenAI Anthropic Claude Opus 4.8 GPT-5.6-sol Codex Juice测试 SpaceX

10 分钟 · 4 卡片 · 12 资料

读原文 →

退钱！Claude 4.8连夜大降智，GPT-5.6算力遭“腰斩”

前置背景

平行视角

未来推演

延伸追问