7.2
深览指数
科技36 氪·机器之心··AI 生成
Claude Code爆火背后的Agent Harness底层逻辑,UIUC、Meta、斯坦福深度解读
本文深入解读UIUC、Meta、斯坦福联合发布的102页综述《Code as Agent Harness》,核心论点超越“只管代码写对”的传统视角,指出在Claude Code、Codex等长期任务Agent中,代码本身已从最终产物转变为承载计划、执行、反馈与状态管理的核心媒介(Harness)。文章从接口、机制、多Agent协作三层系统剖析这一范式,并延伸到GUI、机器人、科学发现等应用。适合已了解AI Agent基本概念、希望理解其系统架构设计底层的技术从业者和研究者。
核心观点
- ▍长期任务Agent的核心不在于模型多强,而在于承载推理、行动、反馈、验证和协作的Harness系统;在此系统中,代码成为串联一切的可执行、可检查、有状态的核心载体,而非单纯产物。
- ▍UIUC、Meta、斯坦福的102页综述《Code as Agent Harness》提出,从界面交互到状态管理再到多Agent协作,代码是组织长期执行过程的最优媒介。
- 01代码具备自然语言没有的三个关键属性:可执行(计划可落为shell命令)、可检查(编译错误、测试结果是客观反馈)、有状态(仓库、测试、日志可持久保存进度)。
- 02在Harness接口层,代码将推理外部化(PoT、PAL用程序代替文本思维链),让行动落地(Claude Code实际修改文件并运行测试),并结构化建模环境(利用DOM tree、执行日志等)。
- 03在状态与反馈层,Harness通过Plan.md、测试脚本、shell命令、工作流等代码化中间物组织“计划-执行-验证”循环,报错和测试失败被视为驱动行为收敛的反馈传感器。
- 04多Agent协作的难点在于共享世界状态,代码提供共享仓库、测试、CI日志、review comment等稳定、可读写的协作基底,优于仅靠自然语言对话进行协作。
- 05该范式已从软件工程扩展至GUI/OS Agent(如Playwright脚本)、机器人(技能库与控制脚本)和科学发现(可执行实验流水线)。
反方 / 局限
- — 论文指出当前Benchmark多以最终结果(答案/测试通过率)为唯一评测标准,但忽略了执行过程的安全性、状态污染和隐藏回归,对Code-Harness Agent缺乏有效的过程级评估。
- — 论文提到“不完全反馈”问题——测试通过不意味代码正确,如何在此类情况下保持Agent的可控性和进化能力,仍是开放挑战。
- — 一个隐含前提是本文主要讨论以代码为中心的软硬件环境(软件仓库、IDE、终端、仿真器),对于不存在明确可执行代码场景(如纯政策分析、艺术创作),该框架适用性存疑。
Agent HarnessCode as Agent HarnessUIUCMeta斯坦福大学Claude CodeCodex宁徐瑛付东奇SWE-benchVoyagerPlan-Execute-Verify 循环PoTPALSWE-agentOpenHandsSiebel Scholar
13 分钟 · 5 卡片 · 14 资料
读原文 →