6.0
深览指数
科技腾讯新闻·新智元··AI 生成
退钱!Claude 4.8连夜大降智,GPT-5.6算力遭“腰斩”
AI社区近期爆发「降智」争议:一篇自测贴文揭示,OpenAI 疑似在 Codex 平台灰度测试低思考预算版的 GPT-5.6-sol,Anthropic 的 Claude Opus 4.8 则被大量用户指控推理能力断崖式下降。文章核心论点不是单纯抱怨质量,而是指控 AI 公司可能通过静默降级、暗中减配来节省推理成本。本文特色在于提供了「Juice 测试」这一用户自检手段,并提出了一个大胆猜测:Opus 4.8 发布时的惊艳表现可能是临时算力加成的假象。适合关注 AI 产业透明度、模型质量监控,以及「订阅制下用户权益」议题的读者。原文 ↗
核心观点
- ▍AI 厂商可能通过静默降级和灰度测试低成本版本来削减算力成本,用户实际使用的模型质量与宣传不符,存在透明度与信任危机。
- ▍「Juice 测试」揭示 OpenAI 在 Codex 平台中将部分用户的 GPT-5.5 请求路由至路由名为「gpt-5.6-sol」的模型,其思考预算返回值从 768 骤降至 128。
- 01用户通过向 GPT-5.5 xhigh 发送特定 XML 代码,可检测隐藏推理算力配额「Juice」;被灰度到 gpt-5.6-sol 的用户返回值为 128,而正常 5.5 为 768。
- 02Reddit 的 r/Anthropic 板块被投诉淹没:用户声称 Opus 4.8 Max 性能弱于 Haiku,不思考、记忆丧失、陷入「杠精」模式,被指「物理切脑」。
- 03一位拥有 1000 亿 token 使用量的用户反馈 Claude 近期一周表现「愚蠢至极」,Opus 4.8 进入「老年痴呆模式」,高思考模式下仍秒回错误答案。
反方 / 局限
- — 文章本身主要基于社区用户的主观反馈和社交媒体截图,缺乏来自 OpenAI 或 Anthropic 的官方数据、API 调用日志或成本核算的独立验证。
- — 「GPT-5.6」名称可能只是 Codex 内部测试路由标识,不一定代表正式版本或直接向用户开放的模型,亦可能为 A/B 测试中的对比模型而非「减配版」。
10 分钟 · 4 卡片 · 12 资料
读原文 →