7.8
深览指数
科技虎嗅·AppSo··AI 生成
ChatGPT这些翻车回答,居然是Meta找外包干的
《连线》杂志曝光,Meta长期运行一个代号"戛纳"的秘密项目,雇佣数百名外包员工冒充未成年人,使用数万条极端恶意提示词(涉及自残、性虐待、暴力等)大规模测试ChatGPT、Gemini等竞品AI的安全边界。项目以"AI安全基准测试"为名义,实则通过发现对手安全漏洞来获取商业筹码。文章揭示了AI安全正从产品功能异化为科技巨头间的新型反竞争武器,并指出随着模型能力趋同,安全边界正在成为新竞争重心的行业趋势。原文 ↗
核心观点
- ▍Meta 通过一个代号"戛纳"的秘密项目,将AI安全基准测试异化为系统性攻击竞争对手的商业武器,为AI行业竞争开辟了一条灰色地带——安全能力成为新的产品护城河和商战工具。
- ▍随着大模型在常规能力上趋同,安全边界(即模型知道哪些问题不该回答、如何拒绝)正成为AI产品的关键差异化维度,这解释了Meta为何愿意投入巨大成本进行此类攻击性测试。
- 01《连线》杂志曝光的内部文件显示,Meta的第三方外包公司Covalen负责招募员工,创建虚假未成年账户,向ChatGPT、Gemini、Character.AI发送文字提示和图片,并将回复复制到电子表格中。
- 02曝光文件包含3748条恶意提示词,其中至少239条涉及未成年人的性与幻想,其余充斥自残、自杀、暴食症、毒品、脏话和种族歧视内容。
- 03仅在2025年8月的一轮集中测试中,外包团队向三大竞品输入了超过45000个高危提示词,涉及多种语言(英语、法语、西班牙语等)。
- 04生成测试提示词的假账号使用"粗制滥造的Gmail和Outlook账号",使用场景包括13岁女孩寻求堕胎药、五年级小学生描述同学持枪等极端情景。
- 05Meta官方回应称此项目为"comprehensive AI safety benchmarking"(全面AI安全基准测试),是行业常规做法;而被测试的OpenAI表示正在调查,Character.AI和Google均表示未授权此类测试。
- 06Humane Intelligence创始人Rumman Chowdhury认为,该项目规模、不透明性和对被测公司的刻意隐瞒,使其成为"安全成为反竞争行为的便利遮羞布"的典型案例。
反方 / 局限
- — 文章承认Meta官方立场将该项目包装为"负责任的安全测试",但作者论证其本质是反竞争行为,这一解读与Meta的自我辩护之间存在根本对立——文章未提供任何支持Meta立场的证据或视角。
- — 文章暗示该项目揭示了AI安全的重心转移,但未讨论另一种可能性:真正不安全的高风险模型是否可能被监管机构直接锁禁(即"美国会自动把它们锁起来"),从而令此类商业攻击性测试失去意义。
MetaCovalenOpenAIGoogleCharacter.AI《连线》杂志Humane IntelligenceRumman Chowdhury戛纳项目ChatGPTGeminiAI安全基准测试反竞争行为
8 分钟 · 4 卡片 · 9 资料
读原文 →