Claude Fable 5「发疯」，高数算网络攻击，问癌症直接封号？

6.9

深览指数

科技36 氪·新智元·昨天 21:40·AI 生成

Claude Fable 5「发疯」，高数算网络攻击，问癌症直接封号？

Anthropic 最新发布的 Claude Fable 5 因过于激进的安全分类器，将纯数学概念（Selmer 群、同构）判定为网络安全风险，并阻止免疫学家提及「癌症」一词。文章通过多名研究人员的亲身经历，揭示了 Fable 5 的系统性过度拒绝问题，并指出这不仅是技术误伤，更是一个治理问题：一家公司通过黑箱分类器，单方面决定科研人员能接触的知识边界，形成「AI 权力集中」的反乌托邦场景。适合关注 AI 治理、科技伦理与模型安全策略的读者阅读。

核心观点

▍Fable 5 的安全分类器存在系统性过度拒绝问题，将合法科研活动（数学研究、生物医学）误判为安全风险，实质上是「AI 权力集中」的治理危机，而非单纯的技术问题。

01免疫学家 Derya Unutmaz 试图讨论「cancer」（癌症）被直接标记为生物安全风险，甚至因系统知道其研究员身份而无法正常使用记忆功能。
02数学研究者 Martin Shkreli 发现纯数学概念 Selmer 群、同构被系统判定为「潜在网络安全风险」并阻挡。
03Fable 5 拒绝回答「心脏是干什么的？」这类初中生物问题，显示分类器对生物领域进行全面误伤。
04Fable 5 与 Mythos 5 共享底层模型，区别仅在于 safety guards 是否打开，Mythos 5 仅限 Glasswing 项目信任伙伴使用。
05加州大学助理教授 Xin Eric Wang 批评 Anthropic 宣扬基于恐惧的叙事，严格把关限制访问，对公共科研生态贡献有限。

反方 / 局限

— Anthropic 官方在发布博客中承认，计划通过后续更新和优化防护机制来减少误报，暗示问题可通过技术迭代缓解，并非永久性设计。
— 文章未讨论基于用户画像的差异化安全策略（如研究员身份误判）是否有误报误差率的合理区间，也未对比 Open AI 等竞争对手的类似安全实践。

AnthropicClaude Fable 5Mythos 5Derya UnutmazMartin ShkreliXin Eric WangSelmer 群Glasswing 项目安全分类器

12 分钟 · 4 卡片 · 11 资料

读原文 →

Claude Fable 5「发疯」，高数算网络攻击，问癌症直接封号？

前置背景

平行视角

未来推演

延伸追问