科技 虎嗅 · AppSo · 8小时前 · AI 生成
刚刚,Codex 大更新,你在电脑的操作正在成为AI 经验包 OpenAI 发布 Codex 的 Record & Replay 功能,允许 AI 通过录制用户的操作流程来学习并生成可复用的“技能”(skill)。该功能瞄准报销、上传视频等重复性工作,旨在将图形界面从人机交互的基础转变为 AI 接管电脑的现成基础设施。文章详细拆解了录制步骤、演示了上传视频的案例,并对比了 Codex 操作电脑的三种路径(Computer Use、Chrome 扩展、应用内浏览器),揭示了 AI 从软件操作者向人类经验训练者的角色转变。适合关注 AI Agent、自动化工具及人机交互范式变化的开发者或产品经理阅读。原文 ↗ 原文 ↗
核心观点
▍ Codex 的 Record & Replay 功能标志着 AI 与软件交互方式的转变:AI 不再依赖 API,而是直接学习人类使用图形界面的方式,将人的操作经验沉淀为可复用的技能,人正从软件操作者变为 AI 的训练者。 01 Record & Replay 的工作流程:需在 Codex 中开启 Computer Use 功能;录制前应告知 AI 目标和可变输入;演示需短而完整,避开敏感信息;录完后 Codex 会自动生成一个包含使用时机、输入、步骤、验证方法的 skill。 02 公开演示案例:Codex 通过录制用户在 YouTube Studio 上上传视频(选文件、填标题、传缩略图、设隐私、加字幕)的全流程,学会了处理文件配对、元数据填写和字幕对齐等隐性规则。 03 Codex 操作电脑的三种路径:Computer Use(操作任意 GUI 应用,但速度慢)、Chrome 扩展(接管已登录的浏览器会话)、应用内浏览器(提供隔离环境,专用于开发调试)。三种路径可通过 skill 灵活组合调用。 04 Record & Replay 录制的 skill 是“可复用上下文”,不是死脚本。它能结合当前环境灵活执行,支持同一 skill 处理不同输入(如 A 文件或 B 文件)。 05 Codex 应用支持接入非 OpenAI 模型,通过配置 model_providers 可对接 Ollama、LM Studio、Mistral 等本地或第三方模型,载体本身是模型开放的客户端。 06 当前限制:仅支持 macOS,首发地区不包括欧盟、英国和瑞士,且必须开启 Computer Use 功能。组织管理员若在 requirements.toml 中将 computer_use 设为 false,Record & Replay 也会同步消失。 反方 / 局限
— Record & Replay 不适合需要语言描述的复杂规则工作,仅适用于“做一遍你就懂的”重复性任务;频繁变化或数据结构差异大的流程不适合用录制来复现。 — 文章提及自动化边界依然存在:Complex Use 虽然能操作无 API 的应用,但速度慢,信任边界窄,涉及钱、账户、支付等操作时建议人全程在场。 — 文章隐含的争点:若想将 skill 作为团队标准包分发、捆绑多个 skill、或集成 MCP 服务器,仍需要回到传统的插件打包方式,Record & Replay 只是“快速原型”捷径。 Codex Record & Replay Computer Use OpenAI Jason Mac Chrome YouTube Studio MCP Appshot
概念锚点 Record & Replay 的真正机制
Record & Replay 录制的不是像素级别的屏幕视频,而是 一套包含操作目标、上下文环境和隐性规则的工作流描述。录制完成后,Codex 会自动生成一个可检查、可编辑的 skill 文件——这意味着你可以在它生成的脚本基础上调整步骤、补上遗漏的决策点(比如「文件命名规范」「字段默认值」),再把它变成团队共享的插件。它之所以不是写死的宏,核心在于 Codex 会结合当前的 Computer Use 能力,在复现时根据实际环境(文件路径、登录状态、窗口布局)做灵活适配,而非机械回放坐标点击。
▸ 1 条关联资料
▼
前置背景 从 RPA 到 AI Agent 的进化阶梯
Record & Replay 的出现,本质上是把传统 RPA(机器人流程自动化)「先写规则再执行」的模式颠倒了过来——你先做一遍,AI 从演示中自动提炼规则。传统 RPA 依赖固定的 If-Else 脚本,一旦界面或流程有变动就需手动维护;而 Codex 用大语言模型理解操作意图,复用 skill 时能动态适应输入参数和环境差异。但两者并非替代关系:RPA 在结构化、高重复任务上执行精度接近 100%,AI Agent 的优势则在处理非结构化数据、模糊需求和跨系统流程的动态决策。
▸ 2 条关联资料
▼
平行视角 「SaaS 末日」与 AI 操作系统的对冲叙事
Anthropic 一款法务 Agent 工具曾引发全球软件股单日蒸发 3000 亿美元,华尔街甚至造出新词「SaaSpocalypse」。一方认为,当 AI 能跨系统自主完成报销、合规审查等任务时,传统 SaaS 按席位收费的商业模式将被瓦解,软件的价值将从应用层向数据层迁移。另一方则反驳:Vibe Coding 一个月搓出的应用无法替代 Salesforce 积累了 20 年的扩展与合规护城河——AI 真正挤压的不是 SaaS 的功能,而是企业的 IT 预算分配。Record & Replay 放大了这种恐慌:当人类操作经验本身变成 AI 可复用的技能包,传统图形界面软件的角色正在从「生产力工具」变成「AI 的训练跑道」。
▸ 2 条关联资料
▼
未来推演 人类从操作者到训练者的角色跃迁
Record & Replay 开启了一个关键转折:今天你学习如何使用软件,未来更重要的一项能力是「教会 AI 使用软件」。目前已知的边界包括:仅限 macOS、需开启 Computer Use、不覆盖欧盟与英国。但更长期的信号藏在 OpenAI 的开放架构中——Codex 允许将模型后端指向 Ollama、Mistral 等第三方或本地模型,这意味着 skill 可能成为跨厂商的自动化标准。下一步的观察节点是:OpenAI 何时允许 skill 的共享市场(类似插件商店),以及是否有竞品(如 Claude 的 Computer Use)跟进演示式教学。真正的拐点不在技术细节,而在「做一遍演示」比「写一段 Prompt」更容易被非技术用户接受时,自动化的采用门槛将彻底消失。
▸ 1 条关联资料
▼
延伸追问 AI 学会你的操作后,谁为错误负责?
当 skill 复现时误删了文件或提交了错误数据,责任在录制演示的人、在编写 skill 的 AI、还是在批准执行的用户?Codex 当前的安全机制(沙箱模式只读/工作区写/完全权限;审批策略交互/自动)提供了技术护栏,但其设计假设是「每次复现都需要人监控」,这与「完全自动化」的商业价值存在根本矛盾。真正值得追问的是:当企业大规模部署由演示生成的自动化 skill 时,审计追踪、操作回滚、异常告警等管控能力是否跟得上——这个问题比「AI 能不能学会」更决定这项技术的落地速度。
▸ 2 条关联资料
▼