7.4
深览指数
科技量子位··AI 生成

BrowserBC:克隆人类点击,让一次网页操作转化为所有Agent的能力

本文介绍开源项目BrowserBC,通过「录制人类操作→蒸馏为自然语言技能卡→由小模型执行」的三步范式,解决Web Agent每次换网站/任务都需从零摸索、容易出错且经验无法复用的痛点。核心设计是:技能来源与执行分离,强模型蒸馏一次、小模型便宜复用。在WebArena-Hard和ClawBench上分别提升20.9和35.5个百分点。作者论证了「自然语言技能作为过程性先验」的价值,并指出当前瓶颈在执行精度而非知识。适合对AI Agent架构、Web自动化、数据飞轮有研究兴趣的读者。原文 ↗

核心观点
  • BrowserBC通过将人类的浏览器操作轨迹蒸馏成可复用的自然语言技能卡,实现「一次录制、多次复用」,解决了Web Agent在陌生网站上需从零摸索、效率低且经验无法积累的核心问题。
  1. 01在WebArena-Hard基准上,base agent成功率为60.5%,注入BrowserBC技能后提升至81.4%,提升20.9个百分点,挽回了基线原本失败的54个任务。
  2. 02在ClawBench基准上(真实线上网站,布局会变化),skill-free基线只解出32.9%的任务,注入技能后解出68.4%,提升35.5个百分点,几乎翻倍。
  3. 03技能不仅提升成功率,还缩短了Agent完成任务所需的平均工具调用次数,在WebArena-Hard上从31.2次降到22.7次(减少27.3%)。
  4. 04技能是模型无关的:由Sonnet-4.6蒸馏出的技能,能大幅提升Qwen-3.7执行器(+20个百分点),装备了Sonnet-4.6技能的小Agent成功率(77%)逼近大Agent(80%),实现了「蒸馏一次、便宜复用」。
  5. 05BrowserBC将技能库组织成「技能图」(skill graph),支持新增、合并、特化操作,实现可扩展的管理,避免重复与冗余。
  6. 06在OSWorld风格的30个Ubuntu桌面任务上,17个在配上匹配技能后得到改善,说明过程性先验能跨浏览器边界迁移。
反方 / 局限
  • 在WebArena-Hard上,强制Agent逐字照搬技能(即便与当前页面矛盾)时,成功率反而降至77.5%,说明技能是「带置信度的先验」而非命令,落地必须以当前页面为准。
  • 对失败案例的人工审计表明,瓶颈大多在执行精度(如漏填字段、长程任务耗光预算、模型推理跑飞),而非缺乏技能知识,即技能补不了「手稳不稳」。
  • 当检索到错配的技能时,Agent可能被「自信地带偏」,反而降低表现;少数简单任务本身不需要技能。
16 分钟 · 4 卡片 · 8 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问