科技腾讯新闻·爱范儿··AI 生成
洗个澡功夫,Codex 替我跟售后把退款要了回来 |附指南
本文通过一个真实案例——开发者用 OpenAI Codex 自动与客服系统交互完成退款——引出 Codex 新推出的三种电脑操作能力:Computer Use、Chrome 插件和内置浏览器。作者清晰解释了这三种模式的设计理念并非让 AI 模拟人操作,而是一套分层权限体系:能用 API 或插件就不用视觉控制,后者只是兜底方案。文章适合关心 AI Agent 产品设计、工具效率的读者,提供了具体的选型指南和最佳实践。原文 ↗原文 ↗
核心观点
- ▍OpenAI Codex 的三种电脑操作能力(Computer Use、Chrome 插件、内置浏览器)不是简单功能重复,而是按不同信任级别和效率设计的权限分层体系,结构化接口优先于视觉模拟操作。
- 01开发者 Jason Liu 用 Codex 自动完成淘宝客服退款:指令为「每 5 分钟检查一次聊天窗口;如果客服上线,改成每分钟检查一次;尽量帮我完成退款」,他洗澡回来后退款已完成。
- 02Computer Use 能通过 iPhone Mirroring 操作手机、修改备忘录,但执行效率低——需要「看清界面、判断点哪、等 App 反应、再看下一屏」的视觉循环,适用于没有 API 或不支持插件的原生应用。
- 03Chrome 插件可复用用户的 Cookie 和登录态,直接操作 Gmail、LinkedIn、Salesforce 等需登录的网页;Jason Liu 用它让 Codex 每天查看 Twitter 私信、读新闻并存入笔记库,持续运行。
- 04应用内浏览器隔离运行,没有插件、Cookie 和登录态,适合本地 Web 开发调试;用户可直接圈注页面元素留反馈,Codex 改完后刷新展示下一版。
- 05Appshots 功能(macOS 双 Command 键截图)负责「指」目标,三种操作能力负责「动手」,形成完整的交互链。
反方 / 局限
- — Computer Use 需要用户交出整台桌面的控制权,官方提醒只能用于单一明确任务,涉及敏感操作仍需真人监督。
CodexOpenAIJason LiuComputer UseAppshotsChrome 插件iPhone Mirroring
前置背景
平行视角
未来推演
延伸追问