从 Harness 架构到 Token 经济学的探索

7.3

深览指数

科技Bestblogs·腾讯云开发者·06-23 08:45·AI 生成

从 Harness 架构到 Token 经济学的探索

文章基于真实的工程配置（.codebuddy）与实战案例，系统阐述了 AI 辅助编程中 Harness（模型外代码层）的构建方法。核心结论是：AI 编程能力的上限往往由 Harness 架构而非模型本身决定。作者从控制论的前馈/反馈双环控制出发，拆解了 Rules/Hooks/Skills 的分级体系，并展示了通过精简 Rules、复用 KV Cache 等手段将单次任务基础 Token 开销降低 36% 的工程实践。内容对已具备 LLM 基础原理、正在搭建或优化内部 AI 编程工作流的开发者有直接参考价值。原文 ↗原文 ↗

核心观点

▍Harness（模型外的代码层）决定了 AI 能力的上限，而非模型本身。LangChain 实验显示，仅更换 Harness 可将 TerminalBench 通过率从 52.8% 提升至 66.5%。
▍Harness 本质是控制论的双环控制：前馈（Rules）预先注入约束，反馈（Hooks）在行动前后自动拦截与纠偏，两者结合构成 AI 的‘刹车系统’。

01作者拆解了项目的 .codebuddy 配置，包含四层架构：Commands（入口）、Skills（领域封装）、Rules（约束）、Hooks（反馈控制），并展示了 Hooks 如何在工具调用前后检测、阻止或给出提示。
02项目通过将 29 个文件压缩、将 7 个高频检查合并为单文件、移除冗余 context（如测试代码、非必要知识点）、以及对流程型 Skill 设置 disable-model-invocation，使基础 Token 开销从 23.5K 降至 15K，降幅达 36%。
03Reflexion 的工程化实现是用人工提炼的‘编码红线’替代 AI 自动反思。项目从真实 Bug 中提炼出 8 条编码红线（如方案切换清理、通用控件保护），写入 ai-coding-defense.md，并由 commit-quality.sh 在提交时自动扫描拦截。
04推荐原子化提交工作流：每步修改后立即 lint+type-check+commit，确保每步是‘最小可独立验证单元’，并支持三种 review 模式（自行、用户、传统）以应对不同风险。
05对话管理策略建议每次对话最终以 No-code diff 完成交汇，避免在对话中转写代码；同时，AI 输出中的代码片段可能不兼容，应由用户粘贴实际代码以确保准确性。

反方 / 局限

— 文章的方法论高度依赖特定的工程环境（VSCode + CodeBuddy 插件 + 特定模型组合），对于使用其他 IDE 或 LLM API 的团队，其配置结构和规则的具体写法可能需要大量适配。

Harness ReAct Reflexion Token 经济学 KV Cache 控制论 LangChain CodeBuddy 蒙特卡洛树搜索 Claude DeepSeek GLM

4 分钟 · 5 卡片 · 14 资料

读原文 →

从 Harness 架构到 Token 经济学的探索

概念锚点

前置背景

平行视角

未来推演

延伸追问