ChatGPT这些翻车回答，居然是Meta找外包干的

7.8

深览指数

科技虎嗅·AppSo·6小时前·AI 生成

ChatGPT这些翻车回答，居然是Meta找外包干的

《连线》杂志曝光，Meta长期运行一个代号"戛纳"的秘密项目，雇佣数百名外包员工冒充未成年人，使用数万条极端恶意提示词（涉及自残、性虐待、暴力等）大规模测试ChatGPT、Gemini等竞品AI的安全边界。项目以"AI安全基准测试"为名义，实则通过发现对手安全漏洞来获取商业筹码。文章揭示了AI安全正从产品功能异化为科技巨头间的新型反竞争武器，并指出随着模型能力趋同，安全边界正在成为新竞争重心的行业趋势。原文 ↗原文 ↗

核心观点

▍Meta 通过一个代号"戛纳"的秘密项目，将AI安全基准测试异化为系统性攻击竞争对手的商业武器，为AI行业竞争开辟了一条灰色地带——安全能力成为新的产品护城河和商战工具。
▍随着大模型在常规能力上趋同，安全边界（即模型知道哪些问题不该回答、如何拒绝）正成为AI产品的关键差异化维度，这解释了Meta为何愿意投入巨大成本进行此类攻击性测试。

01《连线》杂志曝光的内部文件显示，Meta的第三方外包公司Covalen负责招募员工，创建虚假未成年账户，向ChatGPT、Gemini、Character.AI发送文字提示和图片，并将回复复制到电子表格中。
02曝光文件包含3748条恶意提示词，其中至少239条涉及未成年人的性与幻想，其余充斥自残、自杀、暴食症、毒品、脏话和种族歧视内容。
03仅在2025年8月的一轮集中测试中，外包团队向三大竞品输入了超过45000个高危提示词，涉及多种语言（英语、法语、西班牙语等）。
04生成测试提示词的假账号使用"粗制滥造的Gmail和Outlook账号"，使用场景包括13岁女孩寻求堕胎药、五年级小学生描述同学持枪等极端情景。
05Meta官方回应称此项目为"comprehensive AI safety benchmarking"（全面AI安全基准测试），是行业常规做法；而被测试的OpenAI表示正在调查，Character.AI和Google均表示未授权此类测试。
06Humane Intelligence创始人Rumman Chowdhury认为，该项目规模、不透明性和对被测公司的刻意隐瞒，使其成为"安全成为反竞争行为的便利遮羞布"的典型案例。

反方 / 局限

— 文章承认Meta官方立场将该项目包装为"负责任的安全测试"，但作者论证其本质是反竞争行为，这一解读与Meta的自我辩护之间存在根本对立——文章未提供任何支持Meta立场的证据或视角。
— 文章暗示该项目揭示了AI安全的重心转移，但未讨论另一种可能性：真正不安全的高风险模型是否可能被监管机构直接锁禁（即"美国会自动把它们锁起来"），从而令此类商业攻击性测试失去意义。

Meta Covalen OpenAI Google Character.AI 《连线》杂志 Humane Intelligence Rumman Chowdhury 戛纳项目 ChatGPT Gemini AI安全基准测试反竞争行为

8 分钟 · 4 卡片 · 9 资料

读原文 →

ChatGPT这些翻车回答，居然是Meta找外包干的

前置背景

平行视角

未来推演

延伸追问