售后服务
我们是专业的

Day 27下午-1:探索性数据分析(EDA)- 让数据主动告诉你问题在哪

当你面对2万行数据时,第一眼应该看什么

数据清洗完成后,很多人会立刻开始计算各种复杂指标。这是错的。

数据分析大师John Tukey说过: "Far better an approximate answer to the right question, than an exact answer to the wrong question."(对正确问题的近似答案,远好于对错误问题的精确答案。)

探索性数据分析(EDA,Exploratory Data Analysis)的本质: 不是证明你的假设,而是让数据说话,发现你不知道的问题

一位资深运营总监曾分享过他的经验:

"我带过的新人,90%都犯同一个错误:拿到数据就开始算平均值、做环比。但他们忽略了最重要的一步——先看分布,再看趋势,最后看关系。有一次,一个新人分析门店客单价下降,花了3小时做了详细的环比分析。我只看了5分钟数据分布图就发现:不是客单价普遍下降,而是新增了大量50元以下的小保养订单,把平均值拉低了。高价值客户的消费其实在增长。如果按他的结论去推高价值项目,反而会错失小保养客户的机会。"

这就是EDA的威力。


EDA的三层递进逻辑


第一层:单变量分析 - 给数据做「体检」

为什么要从单变量开始?

很多业务问题,其实从单个指标的分布就能看出端倪。

真实案例: 某门店店长抱怨"我们的技师效率太低"。运营专家调出技师产值数据,做了一个简单的分布图,发现:

  • 8个技师中,6个人的日产值在2000-2500元之间(正常)
  • 1个人日产值3500元(明星技师)
  • 1个人日产值只有800元

问题不是"整体效率低",而是"有一个技师严重拖后腿"。深入调查发现,这位技师是新入职的学徒,还在培训期。

启示: 看平均值会被误导,看分布才能发现真相

单变量分析的四个关键维度

维度1:集中趋势(数据的"中心"在哪里)

不要只看平均值,要看三个指标:

指标 含义 业务场景
平均值(Mean) 所有数据的算术平均 容易受极端值影响
中位数(Median) 排序后中间位置的值 更能反映"典型"水平
众数(Mode) 出现次数最多的值 找出最常见的情况

实战技巧: 如果平均值远大于中位数,说明有少数高值拉高了平均,要警惕"平均值陷阱"。

例如:客单价平均值1200元,中位数800元 → 说明大部分客户消费800元,少数大客户消费很高。

维度2:离散程度(数据有多"分散")

指标 计算方法 业务含义
标准差(SD) 衡量数据偏离平均值的程度 标准差大 → 差异大 → 管理不规范
变异系数(CV) 标准差/平均值 消除量纲影响,可跨指标比较
极差(Range) 最大值-最小值 快速看出波动范围

案例解读: 某连锁品牌对比两家门店的技师产值

门店A: 平均日产值2500元,标准差200元(CV=8%)

门店B: 平均日产值2500元,标准差800元(CV=32%)

平均值相同,但门店B的标准差是A的4倍,说明:

  • 门店A的技师水平接近,管理规范
  • 门店B的技师水平参差不齐,可能存在培训不足或排班不合理

维度3:分布形态(数据的"样子")

正态分布 vs 偏态分布 vs 双峰分布

用直方图可视化后,你会看到三种典型形态:

1. 正态分布(钟形曲线)

      数量
       |
   *   |     *
  * *  |   * * *
 * * * | * * * * *
--------------------- 客单价
    500  1000  1500

业务含义: 大部分客户集中在中间价位,两端递减。这是健康的客户结构。

2. 右偏分布(长尾)

      数量
       |
 * * * |*
 * * * |  *
 * * * |    * *
--------------------- 客单价
  200   1000   5000

业务含义: 大量低价订单,少数高价订单。常见于快修快保业务。

3. 双峰分布(两个高峰)

      数量
       |
 *     |     *
 * *   |   * *
 * * * | * * *
--------------------- 客单价
  300    800   1500

业务含义: 存在两类截然不同的客户群体。例如:

  • 300元档:小保养客户
  • 1500元档:维修+保养套餐客户

警示: 如果只看平均值(约900元),会误以为典型客户消费900元,但实际上根本没有人消费900元

维度4:异常值识别(找出"不正常"的数据)

箱线图(Box Plot)是识别异常的利器:

       异常值 ●
         |
       ┌─┐
上须线 │ │
       │ │ ← 上四分位数(Q3)
       ├─┤ ← 中位数
       │ │ ← 下四分位数(Q1)
下须线 │ │
       └─┘
         |
       异常值 ●

判断标准:

  • 下界 = Q1 - 1.5×IQR(IQR = Q3-Q1,四分位距)
  • 上界 = Q3 + 1.5×IQR
  • 超出上下界的即为异常值

实战案例: 某门店在店时长分析

通过箱线图发现,95%的客户在店时长为1-3小时,但有3个订单在店时长超过24小时。

追踪这3个订单发现:

  • 2个是钣喷业务(需要多天)
  • 1个是客户把车放店里3天没来取(系统录入错误)

改进措施:

  1. 钣喷业务单独统计,不与快修混在一起
  1. 修正系统录入规范

第二层:双变量分析 - 发现指标之间的"关系"

为什么要分析变量之间的关系?

单变量分析告诉你"发生了什么",双变量分析揭示"为什么会这样"。

三种核心关系类型:

类型1:相关关系(两个指标是否同步变化)

经典分析:客单价 vs 客户满意度

很多人认为"价格越低,满意度越高"。数据会告诉你真相。

真实发现: 某品牌分析了5000个工单后发现:

| 客单价区间 | 平均CSI | 样本量 |

|------------|---------|--------|

| <300元 | 82分 | 1200 |

| 300-800元 | 88分 | 2100 |

| 800-1500元 | 91分 | 1200 |

| >1500元 | 89分 | 500 |

发现: 客单价在800-1500元时满意度最高,过低或过高都会下降。

原因分析:

  • <300元:客户觉得"没修好",只是简单应付
  • 300-1500元:客户觉得"物有所值"
  • 1500元:客户对价格敏感度提高,期望更高

业务启示: 不要盲目低价竞争,合理定价反而能提升满意度

如何判断相关性强弱?

皮尔逊相关系数(Pearson Correlation):

  • r = 1:完全正相关
  • r = 0.7-0.9:强正相关
  • r = 0.4-0.7:中等正相关
  • r = 0.2-0.4:弱正相关
  • r = 0:无相关
  • r < 0:负相关

类型2:对比关系(不同分组之间有何差异)

经典分析:工作日 vs 周末的业务差异

指标 工作日 周末 差异 业务含义
日均台次 15台 28台 +87% 周末是高峰
平均客单价 1200元 650元 -46% 周末多为快修快保
在店时长 2.5小时 1.8小时 -28% 周末客户时间紧张
预约率 35% 78% +123% 周末需提前预约

洞察: 工作日和周末是两种完全不同的业务场景,需要差异化的运营策略:

  • 工作日: 深度维修为主,配置高技能技师
  • 周末: 快速保养为主,配置更多服务顾问,优化流程

类型3:时间序列关系(趋势、周期、突变)

三个必看的时间维度:

1. 趋势(Trend):整体方向

月产值
60万 |                    ●
50万 |              ●   
40万 |        ●  
30万 |  ●
     |__________________
      1月 2月 3月 4月

看什么:

  • 是上升、下降还是平稳?
  • 上升/下降的速度如何?
  • 有没有拐点?

2. 季节性(Seasonality):周期性波动

台次
500 |  ●        ●        ●
400 |    ○    ○    ○
300 | ○    ○○    ○○  
    |__________________
     1  4  7  10 (月份)

常见周期:

  • 车检高峰期(每年3月、9月)
  • 季度末冲量(每季度最后一周)
  • 节假日前的保养高峰

3. 异常突变(Anomaly):非预期变化

案例: 某门店3月份产值突然下降40%

初步假设:

  1. 竞争对手降价?
  1. 服务质量下降导致客户流失?
  1. 营销活动减少?

数据验证:

  • 进店台次正常(排除客户流失)
  • 客单价骤降(问题在这里)

深挖发现: 3月是首保高峰期(新车6个月首保),首保免费或半价,拉低了平均客单价。

结论: 这不是问题,而是正常的季节性波动。但可以利用首保客户做增值服务交叉销售。


第三层:多维度交叉分析 - 揭示复杂业务模式

RFM客户分层分析实战

RFM模型: 从三个维度评估客户价值

  • R(Recency,最近一次消费): 距今多少天
  • F(Frequency,消费频次): 过去12个月来了几次
  • M(Monetary,消费金额): 累计消费多少

分层逻辑(每个维度分高/低):

客户类型 R F M 占比 运营策略
重要价值客户 5% VIP专属服务,专人维护
重要发展客户 10% 提高互动频次,推荐套餐
重要保持客户 8% 激活召回,了解流失原因
一般价值客户 20% 提升客单价,推荐增值服务
潜在客户 30% 培育忠诚度,首次体验要好
流失客户 任意 任意 27% 分析流失原因,定向挽回

实战发现: 某门店做完RFM分析后震惊地发现:

  • 5%的重要价值客户贡献了35%的产值
  • 但这5%的客户中,有3个人已经超过3个月没来了(从"重要价值"变成"重要保持")

立即追踪发现:

  • 1人搬家了(地理因素)
  • 1人对上次服务不满意但没投诉(服务质量)
  • 1人被竞对挖走了(价格因素)

紧急措施: 店长亲自致电,给予VIP专属优惠,挽回了后两位客户。

教训: 如果不做RFM分析,这些高价值客户的流失会被平均数据掩盖,等发现时已经太晚。


问题识别清单:把发现转化为行动

EDA的最终产出:一份「问题识别清单」

示例:

问题1:周末工位利用率饱和,客户等待时间过长
【数据支撑】
- 周末工位利用率95%,工作日仅55%
- 周末客户平均等待45分钟,投诉率是工作日3倍
- 周末预约爽约率18%(客户等不及去别家)

【影响程度】高
- 每周流失约15台次,月损失产值约18万

【初步假设】
1. 周末人手不足?
2. 预约系统不精准,导致集中到店?
3. 快修项目流程不够优化?

【下一步】
- 分析周末技师排班数据
- 调取预约时段分布
- 统计周末各项目的实际作业时间

---

问题2:高价值客户流失率上升
【数据支撑】
- RFM分析发现,累计消费>2万的客户,3个月未回店率达22%
- 去年同期仅12%

【影响程度】高
- 若不挽回,年损失产值约120万

【初步假设】
1. 竞对挖墙脚?
2. 服务体验下降?
3. 缺乏主动关怀?

【下一步】
- 电话回访流失客户
- 对比竞对价格与服务
- 检查CRM系统的客户关怀记录

三个EDA陷阱及规避

陷阱1:只看平均值,忽视分布

表现: "我们的平均客单价是1000元,行业标杆是1200元,所以我们要提升客单价。"

问题: 不知道客单价的分布结构,盲目提价可能赶走主要客户群。

正确做法: 先看分布,识别主要客户群,针对性优化。

陷阱2:过度解读相关性

表现: "门店面积和产值相关系数0.85,所以扩大门店面积就能提高产值。"

问题: 相关不等于因果,可能是产值高的门店才租得起大面积。

正确做法: 用业务逻辑验证因果关系,必要时做A/B测试。

陷阱3:孤立看数据,不结合业务

表现: "3月产值下降40%,一定是出了大问题!"

问题: 不了解业务特性,把正常的季节性波动当作异常。

正确做法: 任何数据发现都要和业务人员确认,理解背后的业务逻辑。


给你的实战建议

记住: EDA不是为了展示你会多少分析方法,而是快速定位业务问题,为下一步根因分析指明方向

下一页,我们将进入Day 27晚上的核心环节——根因分析与假设验证。

未经允许不得转载:似水流年 » Day 27下午-1:探索性数据分析(EDA)- 让数据主动告诉你问题在哪