7.3
深览指数
科技人人都是产品经理·L.NaN··AI 生成

同一个模型,为什么你的 Agent 没有别人的好用?

本文指出,在基座模型能力趋同的背景下,GUI Agent落地效果的分化根源往往不在模型上限,而在数据工程的下限。作者分享了真实项目经验,批判了“数据多即有效”的误区,指出现实中普遍存在数据同质化、边角情况断档、标注规范混乱、缺乏负样本与推理链等硬伤。文章给出了从场景全景拆解、重写标注规范到动态Bad Case复盘的具体实操方法,并援引了项目数据佐证(通过数据工程将准确率从不足60%提升至82%)。适合正在或即将进行Agent产品化落地的AI工程师、算法研究员及技术管理者阅读。

核心观点
  • 决定Agent能否稳定落地的关键往往不在模型上限,而在于数据工程的下限。真正的差距源于数据设计的底层逻辑而非模型或策略。数据量与数据覆盖率是两个完全不同的概念,后者对模型能力提升更为关键。
  1. 01作者团队与另一个团队使用相近基座模型,在类似场景下,一方三个月让Agent接真实业务,另一方仍在修Bug。复盘发现差距不在模型,而在数据准备阶段。
  2. 02在电商后台项目中,训练集大部分是商品详情页和首页截图,但Agent真正需要频繁操作的配置页、库存管理页占比极少,导致模型识别能力提升,但任务执行表现不佳。
  3. 03数据工程中存在三大致命硬伤:边角情况断档(如网络加载慢、按钮变灰、意外弹窗等异常状态在训练集中几乎为零)、标注规范变成糊涂账(不同标注师对相同UI元素的判断不一致)、极度缺乏负样本与推理链。
  4. 04标注人员受日常使用习惯影响,倾向于往页面右上角或右下角找按钮,这种人类惯性会变成模型偏见。需要强迫覆盖常规布局反例来对冲。
  5. 05团队在某项目模型代码未改的情况下,仅通过重新对齐场景列表、补齐异常状态数据、重写包含边界案例的标注规范,两个月后将Agent业务准确率从不足60%提升至82%。
反方 / 局限
  • 【隐含局限】文章假设当前开源与闭源模型的差距正在收窄,且团队在模型架构上无法保持长期领先,因此数据工程是唯一护城河。但这一判断依赖于通用基座模型的能力天花板是否被打破,若出现特定领域模型的架构突破(如针对GUI操作优化的原生模型),则数据工程的主导地位可能被削弱。
  • 【隐含局限】文中提及的Bad Case复盘和数据回注方法需要较高的工程投入和跨团队协作能力,对于中小团队或资源有限的组织,其可复现性和性价比可能低于文中案例所展现的收益。
GUI Agent数据工程电商后台
7 分钟 · 5 卡片 · 8 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问