AI 不缺智商缺纪律：一场 Harness 工程化实践

8.7

深览指数

科技Bestblogs·阿里技术·06-10 20:24·AI 生成

AI 不缺智商缺纪律：一场 Harness 工程化实践

本文系统复盘在 Harness（AI编码工程框架）上两个月的演进，核心论断是：AI Coding的瓶颈已从「模型能力」转向「流程工程」，稳定性需由外部框架而非堆prompt来供给。作者从初始CLAUDE.md堆砌规则导致上下文爆炸的失败教训出发，逐步构建出三层加载架构（常驻入口层、原子规则层、按需上下文层），并引入Agent调度编排（dispatcher状态机+文件交接）与确定性评测平台。文章详细拆解了每层设计意图、代价与边界，并对比了Workflow、Agent Team等现成编排方案的适用场景，最后将这套模式提炼为可迁移的工程化思维。适合有一定AI Coding实践、正面临输出不稳定困局的工程师或AI应用架构师阅读。

核心观点

▍AI Coding的瓶颈正从「模型能力」转向「流程工程」；模型已足够聪明但输出不稳定，稳定性必须由外部框架供给，而非靠堆prompt说服。
▍流程强制执行必须从LLM推理中外置到确定性基础设施；门禁（G1-G8）必须是确定性代码，独立于上下文窗口，fail-closed（默认拒绝），不依赖模型记住该执行哪个步骤。

01三层加载架构：常驻入口层（<2K tokens）、原子规则层（<5K tokens）、按需上下文层（单个≤4K），将主会话常驻上下文压至≤8K，深度内容按需加载。
02Agent编排设计：主会话退化为纯执行器，只执行dispatcher指令；各agent通过文件系统交接，状态持久化，支持跨天续跑与审计。
03确定性评测平台：100% Python确定性逻辑，零LLM调用，7维评分（代码质量/功能覆盖/边界覆盖率/错误恢复/可测试性/安全/文档），3次跑分完全一致。
04G1-G8门禁设计为确定性代码：G1基础会话控制、G2无害性、G3补全度、G4点检清单、G5一致性、G6结构完整性、G7 publish数量、G8语义检查（唯一调模型）。
05三条关键教训：删掉老仓库合并规则、Runner配置仔细写多模态、Agent claude_somnet超出8K后任务重新prop无法重启。
06对比Workflow（流程固定、适合重复任务）、Swarm（大规模并行、适合弱依赖任务）、Agent Team（复杂推理、适合强依赖/条件分支），Harness设计对标Agent Team，但以失败日志为最大信源状态推进。

反方 / 局限

— 作者承认「习惯手动建文件」的用户会觉得这套框架麻烦，增加「降落」成本。
— 框架对单文件/小规模任务是多此一举，仅在大项目/复杂交互场景才体现价值。
— 作者提醒目前Harness依赖claude-sonnet的海量成本、广泛点检、两次重复修复等「浪费」来换取稳定性，成本优化尚需用户自行调研。

HarnessCLAUDE.mdAgentDispatcherclaude-sonnetG1-G8门禁阿里技术

3 分钟 · 5 卡片 · 14 资料

读原文 →

AI 不缺智商缺纪律：一场 Harness 工程化实践

概念锚点

前置背景

平行视角

未来推演

延伸追问