8.0
深览指数
产品人人都是产品经理·溪居即事··AI 生成

为什么评测集分数和用户口碑,常常对不上?

本文基于作者在客服机器人和AI写作助手产品上的3年实战经验,揭示了评测集高分与用户真实体验割裂的根本原因:评测集是受控环境下的“温室成绩”,而真实用户行为充满错别字、模糊意图、多轮对话和情绪波动。文章指出了评测集作为静态切片、预设用户行为等核心局限,并给出了从真实日志反构建评测集、badcase倒灌、按真实分布加权评估等5个实用解法。适合AI产品经理、算法工程师阅读,用于重新思考效果评估的底层逻辑与工作流。原文 ↗

核心观点
  • 评测集高分不等于用户真实体验,因为评测集是受控的“温室”,而用户使用场景是充满噪声、模糊意图和多轮交互的“野地”。
  • AI产品经理的核心能力不应是设计功能或写PRD,而是培养对真实用户行为的感知,这需要长期、笨拙地观察线上日志和用户反馈。
  1. 01作者在AI写作助手项目中,评测集准确率提升至80多分,但上线后用户反馈AI写出的内容“一股班味”,暴露出评测集主题清晰、表达规范的样本与用户真实输入(错别字、半截句、中英混等)的脱节。
  2. 02一个知识问答产品的真实日志显示,1600条覆盖8大类的评测集,上线后头一类场景占了将近一半,而“如何退订、联系人工、开发票”等问题占了近两成,评测集却一条没有。
  3. 03真实用户的多轮对话是反复横跳的(如要求改写、加情绪、再改回原版),评测集则将交互视为静态切片(输入-输出-结束),无法捕捉这种连续性体验。
  4. 04用户行为会随时间漂移,受热点、新品、政策影响,而许多团队的评测集两三年都未更新,导致评估基准与用户真实分布严重偏离。
反方 / 局限
  • 作者承认评测集在开发阶段仍有不可替代的价值:快速迭代、稳定对比、对外汇报,并将其比喻为“体检报告”,与真实用户“主诉”形成互补,而非完全否定。
  • 文章未深入讨论评测本身的质量控制问题(如标注一致性、信度、效度),也未探讨如何量化“非预期使用”场景的权重,这些可能是影响评估准确性的潜在前提。
客户机器人AI写作助手Agent项目多轮对话badcase小地瓜
8 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问