你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布

8.3

深览指数

科技Bestblogs·腾讯技术工程·昨天 18:20·AI 生成

你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布

传统软件测试的通过/不通过逻辑不适用于 Harness 工作流这类概率性程序。本文介绍了一套名为 Harness Eval 的评测系统，通过「出题-答题-判卷」的考试机制，引入 LLM 扮演考官和裁判，实现了对工作流效果的量化评估与闭环迭代。文章提供了具体的系统设计、执行引擎（Go 编写）和内部实战数据（通过率从 82.4% 提升至 100%），适合正在做 AI Agent 或工作流工程化落地的技术人员阅读。原文 ↗原文 ↗

核心观点

▍Harness 工作流是概率性程序，传统单元测试（二值判定）无法评估其质量，需要升级为多维度打分、能提供证据和改进建议的「考试」体系。
▍一个有效的评测系统必须遵循三个原则：可重复（追求统计显著趋势）、可归因（失败可定位到具体原因）、闭环（结果驱动下一次改进）。

01详细设计了「考题」结构：每道题包含题面（Requirements）、阅卷标准（Criterion with Evidence）、环境前提（Context）和元信息（Meta）四个独立文件，并提出了「必备题」「技能题」「实战题」的分层题库建设策略。
02「考官」角色：由 LLM 扮演，按照固定剧本与被测 Agent 进行多轮交互（追问、纠偏、决策），完整记录对话和工具调用过程，模拟真实用户场景。
03「裁判」角色：独立的 LLM 基于完整的工具调用日志（上帝视角），而非对话视角，按硬性通过项（Checklist）、过程质量（评分 1-5）、多维度分数（6个维度）进行综合评分。
04「改卷」输出：每条评分都需引用原文证据，并强制输出按「工作流」「题目」「模型能力」三维度分类的改进建议，直接生成下一轮迭代的待办清单。
05执行引擎用 Go 编写，支持并发执行、Docker 沙箱隔离、30s 超时自动重试，确保了评测的可重复性和工程健壮性。
06通过 4 轮迭代、50+ 次自动化 run，将内部工作流通过率从 82.4% 提升至 100%，验证了该系统的有效性。

反方 / 局限

— 该评测体系的「裁判」效果高度依赖所选用的大模型自身能力（如 4o），如果裁判模型推理或证据引用能力不足，判卷的准确性会下降。
— 文章提到的内部提效数据（通过率从 82.4% 提升至 100%）是基于特定上下文和团队，其可迁移性和在其他业务场景下的泛化能力尚待验证。
— 「考官」按固定剧本交互，虽贴近特定场景，但限制了 Agent 面对开放域问题的真实应变能力评测，可能存在评测偏差。

Harness 工作流Harness EvalLLM 考官LLM 裁判腾讯技术工程

3 分钟 · 3 卡片 · 4 资料

读原文 →

你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布

前置背景

平行视角

延伸追问