BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

7.4

深览指数

科技量子位·2小时前·AI 生成

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

本文介绍开源项目BrowserBC，通过「录制人类操作→蒸馏为自然语言技能卡→由小模型执行」的三步范式，解决Web Agent每次换网站/任务都需从零摸索、容易出错且经验无法复用的痛点。核心设计是：技能来源与执行分离，强模型蒸馏一次、小模型便宜复用。在WebArena-Hard和ClawBench上分别提升20.9和35.5个百分点。作者论证了「自然语言技能作为过程性先验」的价值，并指出当前瓶颈在执行精度而非知识。适合对AI Agent架构、Web自动化、数据飞轮有研究兴趣的读者。原文 ↗原文 ↗

核心观点

▍BrowserBC通过将人类的浏览器操作轨迹蒸馏成可复用的自然语言技能卡，实现「一次录制、多次复用」，解决了Web Agent在陌生网站上需从零摸索、效率低且经验无法积累的核心问题。

01在WebArena-Hard基准上，base agent成功率为60.5%，注入BrowserBC技能后提升至81.4%，提升20.9个百分点，挽回了基线原本失败的54个任务。
02在ClawBench基准上（真实线上网站，布局会变化），skill-free基线只解出32.9%的任务，注入技能后解出68.4%，提升35.5个百分点，几乎翻倍。
03技能不仅提升成功率，还缩短了Agent完成任务所需的平均工具调用次数，在WebArena-Hard上从31.2次降到22.7次（减少27.3%）。
04技能是模型无关的：由Sonnet-4.6蒸馏出的技能，能大幅提升Qwen-3.7执行器（+20个百分点），装备了Sonnet-4.6技能的小Agent成功率（77%）逼近大Agent（80%），实现了「蒸馏一次、便宜复用」。
05BrowserBC将技能库组织成「技能图」（skill graph），支持新增、合并、特化操作，实现可扩展的管理，避免重复与冗余。
06在OSWorld风格的30个Ubuntu桌面任务上，17个在配上匹配技能后得到改善，说明过程性先验能跨浏览器边界迁移。

反方 / 局限

— 在WebArena-Hard上，强制Agent逐字照搬技能（即便与当前页面矛盾）时，成功率反而降至77.5%，说明技能是「带置信度的先验」而非命令，落地必须以当前页面为准。
— 对失败案例的人工审计表明，瓶颈大多在执行精度（如漏填字段、长程任务耗光预算、模型推理跑飞），而非缺乏技能知识，即技能补不了「手稳不稳」。
— 当检索到错配的技能时，Agent可能被「自信地带偏」，反而降低表现；少数简单任务本身不需要技能。

BrowserBC Einsia AI Navers Lab WebArena-Hard ClawBench OSWorld 行为克隆（Behavior Cloning）技能图（Skill Graph）Sonnet-4.6 Qwen-3.7

16 分钟 · 4 卡片 · 8 资料

读原文 →

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

前置背景

平行视角

未来推演

延伸追问