8.2
深览指数
成长人人都是产品经理·巫师Sorcerer··AI 生成

产品复盘三大归因陷阱:裸差、辛普森悖论、幸存者偏差

文章系统分析了产品复盘中最常见的归因谬误——裸差、混淆变量、辛普森悖论和幸存者偏差,指出简单的前后对比或分组比对因其假设不成立而常误导决策。作者进一步揭示了A/B测试在网络效应和双边市场中的SUTVA局限性,并介绍了PSM和DiD两种因果推断方法作为A/B不可用时的事后补救工具。最后强调了在AI降低分析门槛的当下,判断假设是否成立和识别业务暗变量仍需依赖人的认知框架。适合已有基础数据分析经验、正在从“看数字”进阶到“做归因”的产品经理和业务分析人员。原文 ↗

核心观点
  • 产品复盘中最常见的归因错误是「裸差」——将功能上线前后的指标差值直接等同于效果,隐含地假设了这段时间内除了该功能外一切不变,而这在现实环境中几乎不成立。
  • 一条清晰的归因决策链应优先从源头减少变量:能做随机A/B优先A/B;A/B不可行但有干净对照组用DiD;仅剩历史数据时再考虑PSM;最后,连PSM假设也站不住时,应坦诚承认无法归因。
  1. 01「裸差」的陷阱在于系统性地将大盘趋势、季节效应、市场投放、用户画像漂移等外部因素,都打包记在功能头上。
  2. 02「混淆变量」举例:发现使用新功能的用户留存更高,但高活跃用户本就更可能去主动尝试新功能且留存天然高,活跃度是同时影响「使用概率」和「留存」的第三只手。
  3. 03「辛普森悖论」举例:整体看新版转化率低于旧版,但拆分为新客和老客后,新版转化率在两个分群中都更高。原因是新版上线后新客比例大幅上升,改变了用户画像构成。
  4. 04「幸存者偏差」案例:作者本人经历,根据在群里骂功能难用的1%用户意见连夜修改,结果上线后日活跌了20%,因为沉默的99%用户已被旧版形成习惯,他们不会在群里发声。
  5. 05A/B测试的核心假设SUTVA(稳定单元处理值假设)要求在实验组和对照组之间彼此独立。在打车App中,实验组多叫的车会从同一运力池中挤占对照组的资源,导致结果虚高。在IM产品中,实验组的互动消息会泄漏到对照组,导致对照组活跃度上涨,抹平差值。
  6. 06因果推断方法PSM(倾向得分匹配)通过在历史数据中找出条件相似的非用户进行配对,以模拟A/B的随机分组,但它只能匹配观测到的变量,无法处理未纳入表的暗变量。
  7. 07因果推断方法DiD(双重差分)通过引入一个不受功能影响但走在同一大盘趋势上的「对照组」来扣除大盘自然变动。但它依赖「平行趋势假设」,即上线前目标组和对照组的指标走势必须一致。
  8. 08DiD比PSM更强的一点在于:通过"相减"动作,可以扣除那些未观测到但不随时间变的组间差异,而PSM只能控制住观测到的变量。
反方 / 局限
  • 作者承认,PSM的命门是只能匹配观测到变量,用户真实意图等暗变量无法处理,因此结论有残差。DiD的平行趋势假设在现实中也几乎无法完美满足,结论需打折。
  • 文章暗示了一个张力:AI虽然大幅降低了运行PSM、DiD等模型的门槛,但无法替人做出「哪些变量是混淆变量」「平行趋势假设是否成立」「有没有未入表的业务暗变量」这些关键判断。工具越强,被跳过的判断代价越大。
14 分钟 · 5 卡片 · 10 资料
读原文 →

前置背景

论证骨架

平行视角

未来推演

延伸追问