6.9
深览指数
科技36 氪·新智元··AI 生成
Claude Fable 5「发疯」,高数算网络攻击,问癌症直接封号?
Anthropic 最新发布的 Claude Fable 5 因过于激进的安全分类器,将纯数学概念(Selmer 群、同构)判定为网络安全风险,并阻止免疫学家提及「癌症」一词。文章通过多名研究人员的亲身经历,揭示了 Fable 5 的系统性过度拒绝问题,并指出这不仅是技术误伤,更是一个治理问题:一家公司通过黑箱分类器,单方面决定科研人员能接触的知识边界,形成「AI 权力集中」的反乌托邦场景。适合关注 AI 治理、科技伦理与模型安全策略的读者阅读。
核心观点
- ▍Fable 5 的安全分类器存在系统性过度拒绝问题,将合法科研活动(数学研究、生物医学)误判为安全风险,实质上是「AI 权力集中」的治理危机,而非单纯的技术问题。
- 01免疫学家 Derya Unutmaz 试图讨论「cancer」(癌症)被直接标记为生物安全风险,甚至因系统知道其研究员身份而无法正常使用记忆功能。
- 02数学研究者 Martin Shkreli 发现纯数学概念 Selmer 群、同构被系统判定为「潜在网络安全风险」并阻挡。
- 03Fable 5 拒绝回答「心脏是干什么的?」这类初中生物问题,显示分类器对生物领域进行全面误伤。
- 04Fable 5 与 Mythos 5 共享底层模型,区别仅在于 safety guards 是否打开,Mythos 5 仅限 Glasswing 项目信任伙伴使用。
- 05加州大学助理教授 Xin Eric Wang 批评 Anthropic 宣扬基于恐惧的叙事,严格把关限制访问,对公共科研生态贡献有限。
反方 / 局限
- — Anthropic 官方在发布博客中承认,计划通过后续更新和优化防护机制来减少误报,暗示问题可通过技术迭代缓解,并非永久性设计。
- — 文章未讨论基于用户画像的差异化安全策略(如研究员身份误判)是否有误报误差率的合理区间,也未对比 Open AI 等竞争对手的类似安全实践。
AnthropicClaude Fable 5Mythos 5Derya UnutmazMartin ShkreliXin Eric WangSelmer 群Glasswing 项目安全分类器
12 分钟 · 4 卡片 · 11 资料
读原文 →