科技人人都是产品经理·流窜AI··AI 生成
你真的会用AI吗?/goal使用心得分享
本文深入拆解AI工具(Claude Code、Codex、Hermes)的/goal功能,指出其核心价值在于解决AI因“上下文焦虑”而偷懒的问题。作者提出,用好/goal的关键并非写提示词技巧,而是将模糊的“主观感觉”拆解为可执行的规则,并分享了从“定义模糊目标”到“建立六步评分标准”的完整SOP。文章提供了大量具体案例(如秒杀页面优化)和Anthropic的内部方法论,适合希望从“AI使用者”升级为“AI管理者”的技术从业者与产品经理阅读。原文 ↗原文 ↗
核心观点
- ▍用好AI工具/goal的核心不是写提示词,而是将头脑中模糊的“好”拆解成可执行的规则,才能让AI自我监督并精准执行。
- ▍AI偷懒的本质是“上下文焦虑”:模型会因context window将满而急于收尾,/goal通过“执行者+评审”的双角色机制实现自我督促,直至目标完成。
- 01Anthropic在2025年底的研究将AI偷懒现象正式命名为“context anxiety”,指模型在执行任务时会关注自身context window剩余空间,快满时会出现wrap up行为。
- 02作者提出一份合格的/goal任务描述需包含五要素:Outcome(可量化的结果)、Verification(验证方式)、Constraints(不可触碰的边界)、Iteration policy(每轮迭代的记录要求)、Error handling(卡住时的处理策略)。
- 03Anthropic为让AI设计“漂亮”网页,将主观概念拆解为4个维度(设计品质、原创性、技术执行、可用性),并故意加重模型弱项的维度权重(如设计品质和原创性),以校正其默认倾向。
- 04Anthropic的评审机制使用Playwright截取浏览器截图而非直接阅读代码,以此模拟用户真实视觉体验,避免AI自我评价时高估产出质量。
- 05Anthropic通过列出11种美学风格(如brutalist、art deco、industrial)而非单一指令“博物馆级质感”,避免了AI因overfitting导致产出单一化,确保了设计的多样性。
- 06Anthropic的实验显示,AI设计迭代并非线性进步,第10轮产出(3D空间体验)可能比第15轮更优秀,但多轮对话会增加复杂度和产生创意跃迁的概率。
- 07作者总结出一套将主观感觉拆解为AI评审标准的六步SOP:1.跑基准任务;2.记录所有皱眉的具体原因;3.将雷区分门别类收敛成维度;4.为每个维度写绝对具体的反面案例;5.用多个方向避免单一范例;6.喂给评审agent运行并人工校准。
反方 / 局限
- — 作者指出,编写评分标准本质上是将个人“模糊感觉”具象化的过程,若无法清晰定义标准,AI就会替用户做决定——这意味着用户从“管理者”降级为“协作者”。
- — 文章承认新手在最初几轮需人工检查评审结果与主观感受的一致性,若不匹配需返回修改评分标准,说明该SOP的初始建立成本不低,且高度依赖用户的专业判断力。
- — 作者以内容创作为例设计的评分标准(如禁用破折号、禁用“不是A而是B”句型)本质是高度个人化的风格约束,并非客观质量标准,在面向不同受众或场景时可能失效,甚至可能扼杀AI的创造性表达。
11 分钟 · 5 卡片 · 15 资料
读原文 →概念锚点
前置背景
平行视角
未来推演
延伸追问