8.3
深览指数
科技Bestblogs·腾讯技术工程··AI 生成

你的 Harness 工作流真的在进步吗?我们用一场考试撕掉了遮羞布

传统软件测试的通过/不通过逻辑不适用于 Harness 工作流这类概率性程序。本文介绍了一套名为 Harness Eval 的评测系统,通过「出题-答题-判卷」的考试机制,引入 LLM 扮演考官和裁判,实现了对工作流效果的量化评估与闭环迭代。文章提供了具体的系统设计、执行引擎(Go 编写)和内部实战数据(通过率从 82.4% 提升至 100%),适合正在做 AI Agent 或工作流工程化落地的技术人员阅读。原文 ↗

核心观点
  • Harness 工作流是概率性程序,传统单元测试(二值判定)无法评估其质量,需要升级为多维度打分、能提供证据和改进建议的「考试」体系。
  • 一个有效的评测系统必须遵循三个原则:可重复(追求统计显著趋势)、可归因(失败可定位到具体原因)、闭环(结果驱动下一次改进)。
  1. 01详细设计了「考题」结构:每道题包含题面(Requirements)、阅卷标准(Criterion with Evidence)、环境前提(Context)和元信息(Meta)四个独立文件,并提出了「必备题」「技能题」「实战题」的分层题库建设策略。
  2. 02「考官」角色:由 LLM 扮演,按照固定剧本与被测 Agent 进行多轮交互(追问、纠偏、决策),完整记录对话和工具调用过程,模拟真实用户场景。
  3. 03「裁判」角色:独立的 LLM 基于完整的工具调用日志(上帝视角),而非对话视角,按硬性通过项(Checklist)、过程质量(评分 1-5)、多维度分数(6个维度)进行综合评分。
  4. 04「改卷」输出:每条评分都需引用原文证据,并强制输出按「工作流」「题目」「模型能力」三维度分类的改进建议,直接生成下一轮迭代的待办清单。
  5. 05执行引擎用 Go 编写,支持并发执行、Docker 沙箱隔离、30s 超时自动重试,确保了评测的可重复性和工程健壮性。
  6. 06通过 4 轮迭代、50+ 次自动化 run,将内部工作流通过率从 82.4% 提升至 100%,验证了该系统的有效性。
反方 / 局限
  • 该评测体系的「裁判」效果高度依赖所选用的大模型自身能力(如 4o),如果裁判模型推理或证据引用能力不足,判卷的准确性会下降。
  • 文章提到的内部提效数据(通过率从 82.4% 提升至 100%)是基于特定上下文和团队,其可迁移性和在其他业务场景下的泛化能力尚待验证。
  • 「考官」按固定剧本交互,虽贴近特定场景,但限制了 Agent 面对开放域问题的真实应变能力评测,可能存在评测偏差。
Harness 工作流Harness EvalLLM 考官LLM 裁判腾讯技术工程
3 分钟 · 3 卡片 · 4 资料
读原文 →

前置背景

平行视角

延伸追问