科技 TechCrunch · Russell Brandom · 7小时前 · AI 生成
AI 世界正变得「循环」 本文核心论点是:AI 智能体之间的循环调用(Loops)是继从手写代码到智能体之后的下一个重大范式转变。作者通过 Claude Code 创始人 Boris Cherny 的演讲和自身实践,阐述了这种无限循环、持续改进的 AI 工作模式并非概念炒作,而是正在发生的现实。文章指出,虽然递归循环是计算机科学的基础概念,但 AI 时代的循环在非确定性逻辑和成本结构上带来了全新挑战与机遇,其高昂的 Token 消耗是主要障碍。适合关注 AI Agent 前沿实践、技术架构演进与成本权衡的深度读者。原文 ↗ 原文 ↗
核心观点
▍ AI 智能体无限循环调用(Loops)是继从手写代码到自主代理后的下一个重大范式转变,其重要性堪比前两次变革。 01 Claude Code 创始人 Boris Cherny 在 Meta @Scale 大会上明确表示 Loops 是真实的,而不是下一个炒作周期。 02 Cherny 的工作流中运行着两种智能体:一个持续寻找改进代码架构的方法,另一个寻找可统一的重复抽象,它们如同普通程序员一样提交拉取请求,并永不停止。 03 文章指出递归循环并非新概念,但 AI 时代的循环基于非确定性逻辑(由子代理决定何时停止)而非传统编程的明确终止条件。 04 最流行的实现之一是「Ralph 循环」(以 Ralph Wiggum 命名),其原理是将模型已完成的工作汇总并询问是否达成目标,以此解决模型长时间运行的迷失问题。 05 文章将循环视为「测试时计算」的一种形式,援引 OpenAI 研究员 Noam Brown 的观点:只要投入足够算力,当代模型几乎能解决任何问题。 反方 / 局限
— AI 循环每秒消耗的 Token 远超简单的问答聊天机器人,且由于目的是让循环持续运行,成本没有上限,这对于非 Token 销售型企业而言可能代价高昂。
概念锚点 Ralph Loop:一行 Bash 的自愈循环
Ralph Loop(得名于《辛普森一家》的 Ralph Wiggum)是当前 AI 编程社区最火的开源模式——核心就是一行 `while :; do cat PROMPT.md | claude; done`。关键洞察是「不让模型自己判断何时完成,让外部测试框架决定」:AI 持续重试,直到测试、linter 全部通过才停下。这破解了 AI 过早满足于「差不多就行」的毛病,将单次对话升级为无人值守的持续迭代流水线。Anthropic 已将其官方集成到 Claude Code 插件中。
▸ 3 条关联资料
▼
前置背景 从 ReAct 到 Loops:Agent 范式的三次跃迁
2022 年的 ReAct(Thought→Action→Observation 循环)是第一代 Agent 范式,贪心短视、Token 烧得快。2023 年 Plan-and-Execute 用先规划再执行的思路补了全局规划短板。2025‑2026 年的 Agent Loop 则彻底打破「一轮对话等于一个任务」的认知——模型只是循环中可替换的「工作者」,外部验证标准(测试、lint、类型检查)决定何时停止。Boris Cherny 认为,从手写代码→Agent 写代码→Agent 循环调用 Agent,每一步变革的量级相同。
▸ 3 条关联资料
▼
技术原理 Agent Loop 五阶段节拍器
所有生产级 Agent Loop 共享同一个底层节拍:Perceive(读输入与上下文)→ Reason(模型决定下一步)→ Act(执行工具调用)→ Observe(捕获 stdout/stderr/返回码)→ Update(将结果写回上下文,判断继续还是终止)。这与传统 ReAct 的区别在于:工具调用的输出是结构化回填而非自由文本追加,每步生成可审计的日志,同时循环里嵌入「中断‑暂停‑恢复」的检查点(如到达 Token 阈值或人类审核节点)。代价是每一步都让 Prompt 体积膨胀、推理延迟累加。
▸ 3 条关联资料
▼
平行视角 Anthropic 卖 Token 赚钱,用户烧钱买单
文章承认 Agent Loop 的 Token 消耗没有天花板——Anthropic 乐见其成(它按 Token 收费),但用户的实际账单可能爆炸。Ralph 用户报告一夜消耗数千万 Token,有团队后台跑一个廉价模型就烧掉数十美元。社区正通过「模型分级调用」「/compress 压缩上下文」「RTK 过滤终端冗余输出来对抗这笔新开支。目前 Claude Code Loop 的单任务成本是简单 QA 聊天的 10‑50 倍,能否转化为 ROI 取决于任务价值和 Loop 配置的精细度。
▸ 3 条关联资料
▼
未来推演 AutoResearch 循环:再睡一觉,实验跑完了
Karpathy 在 2026 年做了最极致的 Loop 演示:630 行 Python 脚本让 Agent 跑了一夜,自动设计并执行了 50 个学习率实验,自己提交了优化后的代码——零人类干预。这指向 Agent Loop 的下一个阶段:不再只是改代码,而是自主做工程研究。前沿信号包括 AutoResearch(21k GitHub Star)和 Frontier‑EngBench(要求 AI 像资深工程师一样在仿真器中迭代调参)。关键变量是:模型推理成本降到多低、外部验证框架能否覆盖「没有标准答案」的优化问题。
▸ 1 条关联资料
▼
延伸追问 无限循环的停止条件谁定?
代码有测试可验证,但一个持续优化代码架构的 Loop,改进是永无止境的。Boris Cherny 的演示中,一个 Agent 持续寻找重构机会,另一个持续合并重复抽象——它们靠什么决定「够了」?目前行业做法包括:设置固定轮数上限、Token 预算硬边界、用人类批准(Human‑in‑the‑Loop)兜底。更深层的问题是:当改进目标本身是「更好」,而「更好」由 AI 自评时,循环可能陷入无限自指。如果没有前置的外部判断机制,「跑一宿发现只是改了几行注释」就是实付风险。
▸ 0 条关联资料
▼