7.9
深览指数
产品Bestblogs·得物技术··AI 生成

AI UITester:AI Native 的 UI 自动化测试新范式|得物技术

本文是得物技术团队对其自研 AI 原生 UI 测试工具 ai_uitester 的技术复盘。核心解决传统 UI 自动化测试在跨平台(iOS/Android/HarmonyOS)迁移、用例维护和调试上的高成本痛点,提出“视觉驱动”取代“代码驱动”的范式转变。方案通过 VLM 实现“截图-理解-执行”闭环,天然免疫 UI 变更,并通过 LLM 自动将描述性用例转化为可执行脚本。文章详细披露了设计中的关键取舍(逐步执行、置信度阈值、失败分类器)和稳健性考量,适合对 AI 在工程测试领域具体落地方案感兴趣的工程师或技术管理者阅读。原文 ↗

核心观点
  • AI Native 的 UI 自动化测试新范式核心是从“代码驱动”转向“视觉驱动”,以 VLM 为核心,通过“截图-理解-执行”闭环替代传统的元素定位逻辑,实现跨平台统一和天然免疫 UI 变更。
  • 得物 ai_uitester 的设计哲学是“拥抱变化”而非“抵抗变化”,通过 AI 自愈和逐步执行策略在真实场景中实现可靠落地。
  1. 01传统 UI 自动化测试存在三大痛点:跨平台用例迁移成本高(如 iOS 测试脚本需重写定位元素)、调试效率低(失败需人工截图分析)、三端(iOS/Android/HarmonyOS)维护成本翻倍。
  2. 02核心能力一:基于 LLM 的用例自动转化。通过 Prompt 工程和并行增强,可将描述性用例(如“点击搜索框,输入‘篮球鞋’”)自动转化为包含 Tap、Assertion、Swipe 等步骤的可执行脚本,人力投入从数人天降至分钟级。
  3. 03核心能力二:AI 智能调试与用例自愈。系统先通过失败分类器过滤设备/网络等非业务失败,再对业务失败进行五类根因诊断(如元素未加载、页面跳转错误),置信度高于 0.5 则自动修复并重新执行,低于 0.5 则弹出人工审核。
  4. 04核心能力三:VLM 驱动的跨平台统一执行。同一套脚本在三端(iOS/Android/HarmonyOS)通用,因为 VLM 直接识别像素级截图,不依赖 DOM 或 Accessibility ID,因此按钮位置移动也能自动找到。
  5. 05关键的稳健性设计取舍:采用“逐步执行”(每步前截图重识别)而非“一次规划”,避免基于过时信息决策;置信度阈值设为 0.5 以平衡召回与精度;自愈机制返回完整步骤列表而非增量 Diff,避免索引偏移风险。
反方 / 局限
  • 文章未讨论 VLM 模型在低端机或复杂动效(如视频流交互)场景下的性能瓶颈与推理延迟问题,这可能是落地中的潜在局限。
  • 方案高度依赖 Prompt Engineering 的质量和 Wiki 知识库的完备性,若知识库维护滞后,用例转换的准确率可能骤降。
4 分钟 · 4 卡片 · 7 资料
读原文 →

前置背景

功能拆解

平行视角

延伸追问