7.8
深览指数
科技人人都是产品经理·流窜AI··AI 生成

你真的会用AI吗?/goal使用心得分享

本文深入拆解AI工具(Claude Code、Codex、Hermes)的/goal功能,指出其核心价值在于解决AI因“上下文焦虑”而偷懒的问题。作者提出,用好/goal的关键并非写提示词技巧,而是将模糊的“主观感觉”拆解为可执行的规则,并分享了从“定义模糊目标”到“建立六步评分标准”的完整SOP。文章提供了大量具体案例(如秒杀页面优化)和Anthropic的内部方法论,适合希望从“AI使用者”升级为“AI管理者”的技术从业者与产品经理阅读。原文 ↗

核心观点
  • 用好AI工具/goal的核心不是写提示词,而是将头脑中模糊的“好”拆解成可执行的规则,才能让AI自我监督并精准执行。
  • AI偷懒的本质是“上下文焦虑”:模型会因context window将满而急于收尾,/goal通过“执行者+评审”的双角色机制实现自我督促,直至目标完成。
  1. 01Anthropic在2025年底的研究将AI偷懒现象正式命名为“context anxiety”,指模型在执行任务时会关注自身context window剩余空间,快满时会出现wrap up行为。
  2. 02作者提出一份合格的/goal任务描述需包含五要素:Outcome(可量化的结果)、Verification(验证方式)、Constraints(不可触碰的边界)、Iteration policy(每轮迭代的记录要求)、Error handling(卡住时的处理策略)。
  3. 03Anthropic为让AI设计“漂亮”网页,将主观概念拆解为4个维度(设计品质、原创性、技术执行、可用性),并故意加重模型弱项的维度权重(如设计品质和原创性),以校正其默认倾向。
  4. 04Anthropic的评审机制使用Playwright截取浏览器截图而非直接阅读代码,以此模拟用户真实视觉体验,避免AI自我评价时高估产出质量。
  5. 05Anthropic通过列出11种美学风格(如brutalist、art deco、industrial)而非单一指令“博物馆级质感”,避免了AI因overfitting导致产出单一化,确保了设计的多样性。
  6. 06Anthropic的实验显示,AI设计迭代并非线性进步,第10轮产出(3D空间体验)可能比第15轮更优秀,但多轮对话会增加复杂度和产生创意跃迁的概率。
  7. 07作者总结出一套将主观感觉拆解为AI评审标准的六步SOP:1.跑基准任务;2.记录所有皱眉的具体原因;3.将雷区分门别类收敛成维度;4.为每个维度写绝对具体的反面案例;5.用多个方向避免单一范例;6.喂给评审agent运行并人工校准。
反方 / 局限
  • 作者指出,编写评分标准本质上是将个人“模糊感觉”具象化的过程,若无法清晰定义标准,AI就会替用户做决定——这意味着用户从“管理者”降级为“协作者”。
  • 文章承认新手在最初几轮需人工检查评审结果与主观感受的一致性,若不匹配需返回修改评分标准,说明该SOP的初始建立成本不低,且高度依赖用户的专业判断力。
  • 作者以内容创作为例设计的评分标准(如禁用破折号、禁用“不是A而是B”句型)本质是高度个人化的风格约束,并非客观质量标准,在面向不同受众或场景时可能失效,甚至可能扼杀AI的创造性表达。
11 分钟 · 5 卡片 · 15 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问