8.7
深览指数
科技Bestblogs·阿里技术··AI 生成

AI 不缺智商缺纪律:一场 Harness 工程化实践

本文系统复盘在 Harness(AI编码工程框架)上两个月的演进,核心论断是:AI Coding的瓶颈已从「模型能力」转向「流程工程」,稳定性需由外部框架而非堆prompt来供给。作者从初始CLAUDE.md堆砌规则导致上下文爆炸的失败教训出发,逐步构建出三层加载架构(常驻入口层、原子规则层、按需上下文层),并引入Agent调度编排(dispatcher状态机+文件交接)与确定性评测平台。文章详细拆解了每层设计意图、代价与边界,并对比了Workflow、Agent Team等现成编排方案的适用场景,最后将这套模式提炼为可迁移的工程化思维。适合有一定AI Coding实践、正面临输出不稳定困局的工程师或AI应用架构师阅读。

核心观点
  • AI Coding的瓶颈正从「模型能力」转向「流程工程」;模型已足够聪明但输出不稳定,稳定性必须由外部框架供给,而非靠堆prompt说服。
  • 流程强制执行必须从LLM推理中外置到确定性基础设施;门禁(G1-G8)必须是确定性代码,独立于上下文窗口,fail-closed(默认拒绝),不依赖模型记住该执行哪个步骤。
  1. 01三层加载架构:常驻入口层(<2K tokens)、原子规则层(<5K tokens)、按需上下文层(单个≤4K),将主会话常驻上下文压至≤8K,深度内容按需加载。
  2. 02Agent编排设计:主会话退化为纯执行器,只执行dispatcher指令;各agent通过文件系统交接,状态持久化,支持跨天续跑与审计。
  3. 03确定性评测平台:100% Python确定性逻辑,零LLM调用,7维评分(代码质量/功能覆盖/边界覆盖率/错误恢复/可测试性/安全/文档),3次跑分完全一致。
  4. 04G1-G8门禁设计为确定性代码:G1基础会话控制、G2无害性、G3补全度、G4点检清单、G5一致性、G6结构完整性、G7 publish数量、G8语义检查(唯一调模型)。
  5. 05三条关键教训:删掉老仓库合并规则、Runner配置仔细写多模态、Agent claude_somnet超出8K后任务重新prop无法重启。
  6. 06对比Workflow(流程固定、适合重复任务)、Swarm(大规模并行、适合弱依赖任务)、Agent Team(复杂推理、适合强依赖/条件分支),Harness设计对标Agent Team,但以失败日志为最大信源状态推进。
反方 / 局限
  • 作者承认「习惯手动建文件」的用户会觉得这套框架麻烦,增加「降落」成本。
  • 框架对单文件/小规模任务是多此一举,仅在大项目/复杂交互场景才体现价值。
  • 作者提醒目前Harness依赖claude-sonnet的海量成本、广泛点检、两次重复修复等「浪费」来换取稳定性,成本优化尚需用户自行调研。
HarnessCLAUDE.mdAgentDispatcherclaude-sonnetG1-G8门禁阿里技术
3 分钟 · 5 卡片 · 14 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问