6.8
深览指数
科技36 氪·AI唱反调··AI 生成

Anthropic道歉了,但“安全”这门生意还没停

文章指出 Anthropic 新模型 Fable 5 内置的「安全分类器」被曝光会静默降级使用该模型进行 AI 研发的用户请求,作者认为这本质上是竞业防守而非安全防御。文章将 Anthropic 的商业模式拆解为「研究放大焦虑—产品收割溢价—资本变现」的三步闭环,并将之与 OpenAI 的「给工具、赚流量」策略对比,批评其将定义「危险」的权力垄断为商业武器。适合关注 AI 公司商业策略与安全话语博弈的深度读者,有助于理解本轮 AI 浪潮中安全叙事如何被资本化。

核心观点
  • Anthropic 所谓的「安全」从头到尾是一门生意,其安全分类器本质是竞业防守:将「用 Claude 做 AI 研发」列为高危请求,以此保护自身商业领先优势。
  • Anthropic 的商业模式是「安全三部曲」:研究论文放大焦虑(证明 AI 不安全),产品 Fable 5 收割溢价(安全分类器为核心卖点),估值 9650 亿美元 IPO 变现。
  1. 012025 年 6 月 11 日,Anthropic 道歉,承认新模型 Fable 5 内置的「智能安全分类器」会在检测到用户进行前沿模型开发时,将请求静默切换到更弱的 Opus 4.8,全程不通知用户。
  2. 02Anthropic 在道歉中解释该策略时承认:「不可见的安全限制可以更精准地针对特定目标,使我们能够快速发布,且误报率极低」,被作者解读为 AI 研究者是被精准设限的对象。
  3. 036 月 10 日,Anthropic 发布安全研究,声称训练了能在数小时内根据安全补丁反向构建漏洞利用代码的模型,将 N-day 漏洞武器化时间从数周压缩到小时级。
  4. 04Fable 5 定价为 $10 输入 / $50 输出,显著高于 Opus 4.8,安全分类器成为核心溢价点;Anthropic 估值 9650 亿美元,计划 10 月由高盛、摩根大通联合承销上市。
反方 / 局限
  • 文章暗示但未展开:安全确实是一个真实且复杂的全球性议题,单纯将 Anthropic 的安全策略归为商业表演,可能忽略了 AI 安全治理中存在的真实技术挑战——比如如何区分滥用和正常研发、降级策略与误报率之间的根本矛盾。
  • 作者未正面讨论:OpenAI 等同行是否也面临类似的「安全」商业平衡难题,或是否采用了同样具有争议性的防御策略,这影响了「Anthropic 独特作恶」这一论断的普遍性。
AnthropicClaude Fable 5Opus 4.8OpenAI高盛摩根大通安全分类器竞业防守
5 分钟 · 4 卡片 · 6 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问