7.3
深览指数
科技Bestblogs·腾讯云开发者··AI 生成
从 Harness 架构到 Token 经济学的探索
文章基于真实的工程配置(.codebuddy)与实战案例,系统阐述了 AI 辅助编程中 Harness(模型外代码层)的构建方法。核心结论是:AI 编程能力的上限往往由 Harness 架构而非模型本身决定。作者从控制论的前馈/反馈双环控制出发,拆解了 Rules/Hooks/Skills 的分级体系,并展示了通过精简 Rules、复用 KV Cache 等手段将单次任务基础 Token 开销降低 36% 的工程实践。内容对已具备 LLM 基础原理、正在搭建或优化内部 AI 编程工作流的开发者有直接参考价值。原文 ↗
核心观点
- ▍Harness(模型外的代码层)决定了 AI 能力的上限,而非模型本身。LangChain 实验显示,仅更换 Harness 可将 TerminalBench 通过率从 52.8% 提升至 66.5%。
- ▍Harness 本质是控制论的双环控制:前馈(Rules)预先注入约束,反馈(Hooks)在行动前后自动拦截与纠偏,两者结合构成 AI 的‘刹车系统’。
- 01作者拆解了项目的 .codebuddy 配置,包含四层架构:Commands(入口)、Skills(领域封装)、Rules(约束)、Hooks(反馈控制),并展示了 Hooks 如何在工具调用前后检测、阻止或给出提示。
- 02项目通过将 29 个文件压缩、将 7 个高频检查合并为单文件、移除冗余 context(如测试代码、非必要知识点)、以及对流程型 Skill 设置 disable-model-invocation,使基础 Token 开销从 23.5K 降至 15K,降幅达 36%。
- 03Reflexion 的工程化实现是用人工提炼的‘编码红线’替代 AI 自动反思。项目从真实 Bug 中提炼出 8 条编码红线(如方案切换清理、通用控件保护),写入 ai-coding-defense.md,并由 commit-quality.sh 在提交时自动扫描拦截。
- 04推荐原子化提交工作流:每步修改后立即 lint+type-check+commit,确保每步是‘最小可独立验证单元’,并支持三种 review 模式(自行、用户、传统)以应对不同风险。
- 05对话管理策略建议每次对话最终以 No-code diff 完成交汇,避免在对话中转写代码;同时,AI 输出中的代码片段可能不兼容,应由用户粘贴实际代码以确保准确性。
反方 / 局限
- — 文章的方法论高度依赖特定的工程环境(VSCode + CodeBuddy 插件 + 特定模型组合),对于使用其他 IDE 或 LLM API 的团队,其配置结构和规则的具体写法可能需要大量适配。
4 分钟 · 5 卡片 · 14 资料
读原文 →