售后服务
我们是专业的

Day 17 知识点2:监督学习 - 分类与回归 | 预测的两种武器

监督学习:机器学习中最实用的技术


监督学习的两大任务

任务1:分类(Classification)

定义:预测离散的类别标签

通俗理解:把东西分到不同的"盒子"里

售后运营中的分类问题

1. 客户流失预测

  • 输入:客户的历史行为数据
  • 输出:会流失 / 不会流失(2分类)
  • 或者:高风险 / 中风险 / 低风险(3分类)

2. 故障类型识别

  • 输入:故障描述、车辆信息、环境数据
  • 输出:电池故障 / 电机故障 / 传动系统故障 / 其他

3. 客户满意度预测

  • 输入:服务过程数据(等待时间、维修时长、价格等)
  • 输出:非常满意 / 满意 / 一般 / 不满意

4. 投诉严重程度判断

  • 输入:投诉内容文本
  • 输出:紧急 / 重要 / 一般

任务2:回归(Regression)

定义:预测连续的数值

通俗理解:预测一个具体的数字

售后运营中的回归问题

1. 客户生命周期价值(LTV)预测

  • 输入:客户档案、历史消费
  • 输出:未来5年总价值 = 12,500元

2. 维修时长预测

  • 输入:故障类型、车型、配件库存
  • 输出:预计维修时长 = 2.5小时

3. 备件需求量预测

  • 输入:历史销售数据、季节、促销计划
  • 输出:下月需求量 = 128个

4. 客户到店间隔预测

  • 输入:客户历史到店记录
  • 输出:预计下次到店时间 = 45天后

分类 vs 回归:一个对比表

维度 分类(Classification) 回归(Regression)
预测目标 类别标签 数值
输出类型 离散值 连续值
例子 会流失/不会流失 LTV = 12,500元
售后场景 客户流失、故障类型 维修时长、备件需求
评估指标 准确率、召回率、F1 MAE、RMSE、R²

深度案例1:客户流失预测(分类问题)

业务背景

某新能源车企,保有客户10万,2024年Q1客户流失率从15%突然上升至28%,CEO要求售后总监在30天内解决问题。

传统做法的困境

售后总监王总采取了一系列措施:

  • 给所有客户群发短信提醒保养
  • 推出全员8折优惠活动
  • 增加客服人员

结果

  • 成本增加500万元
  • 流失率只降低了3%(28% → 25%)
  • ROI极低,CEO非常不满

问题在哪?

王总是"盲打"——对所有客户一视同仁,没有识别出真正的高风险客户。

机器学习的做法

第1步:数据准备

收集过去2年的客户数据:

  • 流失客户:15,000人
  • 未流失客户:85,000人
  • 共100,000样本

每个客户包含50个特征:

  • 基础信息:车型、车龄、购车渠道、地理位置
  • 行为数据:到店频次、最近一次到店时间、平均消费金额
  • 服务数据:等待时长、FTFR(首次修复率)、投诉次数
  • 互动数据:APP使用频次、客服联系次数、活动参与度

第2步:模型训练

使用70,000样本训练模型,30,000样本测试。

采用随机森林(Random Forest)算法,训练后模型性能:

  • 准确率:82%(100个预测中,82个是对的)
  • 召回率:76%(100个真实会流失的客户中,识别出76个)
  • 精确率:68%(100个预测会流失的客户中,68个真的流失了)

第3步:特征重要性分析

模型揭示了客户流失的Top 10关键因素:

  1. 最近一次到店距今天数(权重:18%)
    • 超过90天未到店,流失风险+45%
  2. 最近一次维修等待时长(权重:15%)
    • 等待超过2小时,流失风险+38%
  3. 竞品门店距离(权重:12%)
    • 竞品门店距离<3公里,流失风险+32%
  4. 客户投诉次数(权重:11%)
    • 有未解决投诉,流失风险+55%
  5. 价格敏感度(权重:9%)
    • 经常询价比价,流失风险+28%
  6. APP使用频率(权重:8%)
    • 30天未打开APP,流失风险+25%
  7. 维修费用趋势(权重:7%)
    • 最近一次费用比历史均值高50%+,流失风险+35%
  8. 服务顾问更换次数(权重:6%)
    • 半年内更换2次以上,流失风险+22%
  9. 车龄(权重:5%)
    • 车龄3-5年(过保),流失风险+18%
  10. 社交媒体情绪(权重:4%)
    • 在社交媒体发负面评价,流失风险+40%

第4步:精准干预

模型识别出5,000名高风险客户,按风险程度分层干预:

高风险(1,500人,流失概率>80%)

  • 总监亲自致电
  • 免费上门取送车服务
  • 赠送价值1,000元的保养套餐
  • 安排专属服务顾问
  • 成本:150万元
  • 挽回率:62%(930人)

中风险(2,500人,流失概率60-80%)

  • 服务经理致电
  • 提供代步车服务
  • 8折优惠券
  • 成本:100万元
  • 挽回率:48%(1,200人)

低风险(1,000人,流失概率40-60%)

  • 自动化短信+APP推送
  • 5折小保养券
  • 成本:10万元
  • 挽回率:30%(300人)

总成本:260万元

总挽回:2,430人

挽回价值:2,430人 × 8,000元(5年LTV)= 1,944万元

ROI:(1,944 - 260) / 260 = 648%

对比王总的盲打策略:

  • 成本:500万元
  • 效果:流失率降低3%
  • ROI:约50%

机器学习方法的ROI是传统方法的13倍!


深度案例2:维修时长预测(回归问题)

业务痛点

某车企售后门店,客户最大的抱怨是:等待时间不确定

  • 客户来店时,服务顾问说"大概2小时"
  • 结果4小时才修好
  • 客户白等了2小时,满意度暴跌

传统估算方法

服务顾问凭经验估算:

  • 新手顾问:准确率40%
  • 资深顾问:准确率65%
  • 平均误差:±1.5小时

问题:

  • 估算过短 → 客户等待 → 投诉
  • 估算过长 → 客户不来 → 流失

机器学习方案

数据收集(过去1年,50,000个维修工单):

输入特征(30个):

  • 故障类型(电池/电机/底盘/内饰...)
  • 车型(15个车型)
  • 车龄(0-8年)
  • 配件库存状态(有货/需调货)
  • 技师经验水平(初级/中级/高级)
  • 当前门店工作负荷(当前排队工单数)
  • 时间因素(工作日/周末,上午/下午)
  • 历史该车维修记录

输出目标

  • 实际维修时长(分钟)

模型选择:梯度提升树(Gradient Boosting)

模型性能

  • 平均绝对误差(MAE):22分钟
  • 均方根误差(RMSE):35分钟
  • R²(决定系数):0.89(89%的时长变化可被模型解释)

对比

  • 传统方法:平均误差90分钟
  • 机器学习:平均误差22分钟
  • 准确度提升4倍

业务应用

场景1:客户预约时精准告知

客户李先生预约保养,系统自动预测:

  • 输入:李先生的车型、车龄、保养项目、预约时段、配件库存状况
  • 输出:预计耗时 1小时45分钟(±15分钟)

服务顾问明确告知:"李先生,根据您的车况和我们的排班情况,预计1小时45分钟完成,最晚不超过2小时。"

结果

  • 李先生准确安排时间
  • 实际用时1小时50分钟
  • 客户满意度:非常满意

场景2:动态排班优化

当天早上,系统预测今日12个工单的总时长:

  • 工单1:2.3小时
  • 工单2:0.8小时
  • 工单3:4.5小时(大修)
  • ...
  • 总计:28小时

当前技师配置:4人 × 8小时 = 32工时

系统建议:

  • 工单3(大修)分配给最资深技师
  • 工单2、工单6(快修)分配给同一技师连续完成
  • 预计可在下午6点前完成所有工单

实际效果

  • 使用预测系统前:每天平均2-3个工单需跨天完成
  • 使用预测系统后:95%的工单当天完成
  • 客户满意度(NPS)从58提升至76

场景3:客户沟通透明化

在维修过程中,如果发现需要更换额外配件:

  • 系统实时更新预测时长:1小时45分钟 → 3小时20分钟
  • 自动发送短信给客户:"李先生,维修中发现需更换刹车盘,预计延长1.5小时,总计3小时20分钟完成,是否继续?"
  • 客户回复确认

透明沟通大幅降低投诉率:从12%降至3%


分类和回归的评估指标

分类问题的评估指标

1. 准确率(Accuracy)

  • 定义:预测正确的样本占总样本的比例
  • 公式:准确率 = 正确预测数 / 总预测数
  • 例子:100个客户,预测82个正确,准确率 = 82%
  • 局限:在样本不平衡时会误导

2. 召回率(Recall)

  • 定义:真实为正的样本中,被正确识别的比例
  • 公式:召回率 = 正确识别的正样本 / 全部正样本
  • 例子:100个真实会流失的客户,识别出76个,召回率 = 76%
  • 业务意义:不要漏掉真正会流失的客户

3. 精确率(Precision)

  • 定义:预测为正的样本中,真正为正的比例
  • 公式:精确率 = 正确识别的正样本 / 预测为正的样本
  • 例子:预测100个会流失,其中68个真的流失,精确率 = 68%
  • 业务意义:不要浪费资源在不会流失的客户上

4. F1 分数

  • 定义:精确率和召回率的调和平均数
  • 公式:F1 = 2 × (精确率 × 召回率) / (精确率 + 召回率)
  • 作用:综合评估模型性能

回归问题的评估指标

1. 平均绝对误差(MAE - Mean Absolute Error)

  • 定义:预测值与真实值的平均绝对差
  • 公式:MAE = Σ|预测值 - 真实值| / n
  • 例子:预测维修时长平均误差22分钟
  • 优点:直观易懂,单位与原始数据相同

2. 均方根误差(RMSE - Root Mean Square Error)

  • 定义:预测值与真实值差的平方的平均值的平方根
  • 公式:RMSE = √(Σ(预测值 - 真实值)² / n)
  • 例子:RMSE = 35分钟
  • 特点:对大误差更敏感(因为有平方)

3. 决定系数(R² - R Squared)

  • 定义:模型解释的方差占总方差的比例
  • 范围:0 到 1,越接近1越好
  • 例子:R² = 0.89,说明89%的时长变化可被模型解释
  • 意义:评估模型的整体拟合优度

从理论到实践:你的第一个分类模型

实战项目:构建客户流失预测模型(简化版)

目标:用Excel + 简单公式,理解分类模型的本质

数据(假设你有100个客户的历史数据):

客户ID 最近到店天数 年消费金额 投诉次数 是否流失
001 120 3000 0
002 30 8000 0
003 90 2000 2
... ... ... ... ...

步骤1:探索性分析

分别计算流失客户和未流失客户的特征均值:

特征 流失客户均值 未流失客户均值 差异
最近到店天数 95天 35天
年消费金额 3500元 6800元
投诉次数 1.2次 0.3次

发现:这3个特征对流失有显著影响

步骤2:制定简单规则(决策树逻辑)

如果 最近到店天数 > 90天:
    预测:会流失
否则:
    如果 投诉次数 > 1:
        预测:会流失
    否则:
        如果 年消费金额 < 4000元:
            预测:会流失
        否则:
            预测:不会流失

步骤3:在测试数据上验证

用这个规则预测另外30个客户:

  • 预测会流失12人,其中9人真的流失 → 精确率 75%
  • 真实流失10人,识别出9人 → 召回率 90%

步骤4:业务应用

对预测会流失的12人,安排服务顾问致电关怀。


下一步学习路径

今天我们学习了监督学习的两大任务:

  • 分类:预测类别(会流失/不会流失)
  • 回归:预测数值(维修时长、LTV)

接下来,我们会学习:

  • 非监督学习:当没有标签时,如何发现数据中的模式
  • 时间序列预测:如何预测未来的趋势(备件需求、到店量)
  • 实战项目:动手构建一个完整的预测模型

下一节预告:Day 17 知识点3 - 非监督学习:聚类分析 | 让数据自己说话

未经允许不得转载:似水流年 » Day 17 知识点2:监督学习 - 分类与回归 | 预测的两种武器