科技人人都是产品经理·寻走··AI 生成
大模型标注平台产品设计经验总结
文章从一位企业级AI应用开发者的视角,系统分享了自研大模型标注平台的设计经验。核心结论是:现有开源或商业测评系统(如Langfuse、火山引擎)在动态提示词管理、高效人工标注、多版本对比等关键功能上存在短板,导致企业级应用难以直接复用,需自建。作者详细拆解了平台的大模型管理、场景隔离、动态提示词与测试集管理、快速人工标注(含快捷键设计)等模块,并指出了自动评测和Agent测评的未来方向。适合正在或计划搭建内部大模型评测体系的产品经理和技术负责人阅读。原文 ↗原文 ↗
核心观点
- ▍现有大模型测评系统(如Langfuse、火山引擎)存在功能缺陷(动态提示词弱、人工标注效率低、与厂商耦合深),企业级应用为追求效果需自建标注平台。
- ▍标注平台设计的核心在于提升效果验证效率,关键功能包括动态提示词管理、快捷键标注、多版本结果快速对比。
- 01作者团队因Langfuse测评交互弱、缺乏动态提示词和快捷键等功能,无法满足实际使用效率,决定自建。
- 02提示词管理需支持动态插入测试集中的变量(如检核场景下的身份证号码),且温度参数应与提示词绑定。
- 03人工标注平台通过Tab键切换标注项、数字键(1-5)标注内容、Enter/Shift+Enter切换上下条数据,大幅提升效率。
- 04对于无标准答案的发散场景,AI自动测评应将维度拆分为多个1-10分的小维度再求和,而非让AI直接打1-100分。
- 05大模型管理需控制并发量,防止调用打爆内部模型服务器。
反方 / 局限
- — 作者承认当前平台仅能测评单次大模型调用,对于涉及多次调用的Agent测评(成功率、效率等),流程和指标更为复杂,是硬核的进阶方向。
- — AI自动测评在无标准答案的场景下需要业务侧提前写好规范的参考答案,且直接让AI打分1-100效果不佳。
Langfuse火山引擎动态提示词Agent测评
概念锚点
前置背景
平行视角
未来推演