引言:一场让我汗流浃背的汇报
2022年,我向老板汇报一个客户等待时间优化项目的成果。
我说:改善后客户平均等待时间从95分钟降到了72分钟,下降24%!
老板问:这个下降是真实的改善,还是可能是正常的波动?
我说:这个……应该是真实的吧?
老板又问:有没有可能是季节因素导致的?因为改善前是春节后旺季,改善后是淡季。
我无言以对。
老板最后说:如果你能证明这个下降不是随机波动,不是季节因素,而是真实的改善效果,我就批准全网推广。
那天晚上,我花了4个小时学习统计检验。
从此,我明白了一个道理:数据有变化不等于改善有效。
一、效果验证的三个层次
1.1 三个层次的递进关系
| 层次 | 问题 | 方法 | 可信度 |
|---|---|---|---|
| 第一层 | 有没有变化? | 前后对比 | 低 |
| 第二层 | 变化是改善导致的吗? | 对照组设计 | 中 |
| 第三层 | 变化有统计显著性吗? | 统计检验 | 高 |
这三个层次是递进的:
- 前后对比告诉你有没有变化
- 对照组告诉你变化是不是你的改善导致的
- 统计检验告诉你变化是真实的还是随机的
二、第一板斧:前后对比(Before-After Comparison)
2.1 什么是前后对比?
看起来很简单,对吗?
但前后对比有两个巨大的陷阱:
陷阱一:口径不一致
陷阱二:干扰因素
2.2 前后对比的正确姿势
关键要素:口径一致
| 要素 | 错误做法 | 正确做法 |
|---|---|---|
| 数据来源 | 前后来源不同 | 前后使用同一数据源 |
| 计算方法 | 前后计算方法不同 | 前后使用同一公式 |
| 统计周期 | 前3个月 vs 后1周 | 前后统计周期相同 |
| 样本范围 | 前后样本群体不同 | 前后样本范围相同 |
案例:正确的FTR前后对比
| 要素 | 内容 |
|---|---|
| 基线数据 | 改善前3个月(800台次) |
| 改善后数据 | 改善后3个月(850台次) |
| 计算口径 | 7天内因同一问题返修的比例 |
| 数据来源 | DMS系统自动统计 |
| 结果 | 前82.3% → 后89.6%,提升7.3pp |
三、第二板斧:对照组设计(Control Group)
3.1 为什么需要对照组?
前后对比有一个致命问题:你无法排除外部因素的影响。
例如:
- 改善后FTR提升了7%
- 但同期全网FTR都提升了5%(因为总部强化了质检)
- 那么你的改善真正的贡献可能只有2%
这就是为什么需要对照组。
3.2 对照组的本质
对照组的选择原则
| 原则 | 说明 | 示例 |
|---|---|---|
| 相似性 | 对照组和实验组要尽可能相似 | 同类型、同规模的门店 |
| 独立性 | 对照组不受实验组影响 | 不同城市的门店 |
| 同时性 | 对照组和实验组同时观察 | 同一时间段的数据 |
3.3 对照组设计案例
案例:FTR提升项目的对照组设计
| 组别 | 门店 | 措施 | 改善前FTR | 改善后FTR | 变化 |
|---|---|---|---|---|---|
| 实验组 | 上海浦东店 | 实施新诊断流程 | 82% | 90% | +8pp |
| 对照组 | 上海徐汇店 | 保持原有流程 | 81% | 83% | +2pp |
分析
- 实验组提升了8pp
- 对照组提升了2pp(可能是总部的质检强化带来的)
- 改善措施的真正贡献 = 8pp - 2pp = 6pp
3.4 对照组的常见形式
| 形式 | 说明 | 适用场景 |
|---|---|---|
| 平行对照 | 同一时间,不同门店 | 流程改善、系统上线 |
| 历史对照 | 同一门店,去年同期 | 排除季节性因素 |
| 区域对照 | 同一区域,不同门店 | 排除区域性因素 |
四、第三板斧:统计检验(Statistical Testing)
4.1 为什么需要统计检验?
即使你有了前后对比和对照组,还有一个问题没解决:
这个变化是真实的,还是可能只是随机波动?
例如:
- 本周FTR 88%,上周FTR 86%
- 提升了2%,是真实改善还是正常波动?
这就需要统计检验来回答。
4.2 p值(p-value):概率的判官
p值是什么?
p值的判断标准
| p值范围 | 结论 | 常见表述 |
|---|---|---|
| p < 0.01 | 非常显著 | “有非常强的证据表明改善有效” |
| p < 0.05 | 显著 | “有足够的证据表明改善有效” |
| p < 0.1 | 边缘显著 | “有一定证据,但不够充分” |
| p ≥ 0.1 | 不显著 | “无法确定改善是否有效” |
通俗理解
想象你在招飞的硬币:
- 如果连续10次都是正面,p值约0.001(这枚硬币几乎肯定有问题)
- 如果连续3次都是正面,p值约0.125(可能只是运气好)
4.3 常用统计检验方法
| 方法 | 英文名 | 适用场景 | Excel函数 |
|---|---|---|---|
| 卡方检验 | Chi-Square Test | 比较两组比例(如FTR) | CHISQ.TEST |
| t检验 | T-Test | 比较两组均值(如等待时间) | T.TEST |
| 配对t检验 | Paired T-Test | 同一组前后比较 | T.TEST(type=1) |
4.4 实战案例:卡方检验判断FTR提升
数据
| 时期 | 总台次 | 一次修好 | 返修 | FTR |
|---|---|---|---|---|
| 改善前 | 800 | 658 | 142 | 82.3% |
| 改善后 | 850 | 762 | 88 | 89.6% |
计算过程(简化版)
使用Excel的CHISQ.TEST函数,或在线卡方检验工具:
结果:p值 = 0.0003
结论
p值 = 0.0003 < 0.01,差异非常显著。
可以自信地说:FTR从82.3%提升到89.6%,不是随机波动,而是真实的改善效果。
五、三板斧的组合使用
5.1 三板斧组合案例
5.2 三板斧对照表
| 方法 | 回答的问题 | 优点 | 局限 |
|---|---|---|---|
| 前后对比 | 有没有变化? | 简单直观 | 无法排除外部因素 |
| 对照组 | 变化是改善导致的吗? | 能排除外部因素 | 无法判断显著性 |
| 统计检验 | 变化有统计显著性吗? | 科学严谨 | 需要一定统计基础 |
六、小结:数据有变化≠改善有效
记住这句话
“我觉得效果不错”和“数据证明效果显著”之间,隔着三板斧的距离。
思考题
- 回想你最近做过的一次改善验证,你用了几板斧?漏了哪一板?
- 如果你要向老板证明一个改善项目的效果,你会如何设计验证方案?
下一篇:Day 43-4:改善效果验证报告——让数据替你说服所有人
似水流年