监督学习:机器学习中最实用的技术
监督学习的两大任务
任务1:分类(Classification)
定义:预测离散的类别标签
通俗理解:把东西分到不同的"盒子"里
售后运营中的分类问题:
1. 客户流失预测
- 输入:客户的历史行为数据
- 输出:会流失 / 不会流失(2分类)
- 或者:高风险 / 中风险 / 低风险(3分类)
2. 故障类型识别
- 输入:故障描述、车辆信息、环境数据
- 输出:电池故障 / 电机故障 / 传动系统故障 / 其他
3. 客户满意度预测
- 输入:服务过程数据(等待时间、维修时长、价格等)
- 输出:非常满意 / 满意 / 一般 / 不满意
4. 投诉严重程度判断
- 输入:投诉内容文本
- 输出:紧急 / 重要 / 一般
任务2:回归(Regression)
定义:预测连续的数值
通俗理解:预测一个具体的数字
售后运营中的回归问题:
1. 客户生命周期价值(LTV)预测
- 输入:客户档案、历史消费
- 输出:未来5年总价值 = 12,500元
2. 维修时长预测
- 输入:故障类型、车型、配件库存
- 输出:预计维修时长 = 2.5小时
3. 备件需求量预测
- 输入:历史销售数据、季节、促销计划
- 输出:下月需求量 = 128个
4. 客户到店间隔预测
- 输入:客户历史到店记录
- 输出:预计下次到店时间 = 45天后
分类 vs 回归:一个对比表
| 维度 | 分类(Classification) | 回归(Regression) |
|---|---|---|
| 预测目标 | 类别标签 | 数值 |
| 输出类型 | 离散值 | 连续值 |
| 例子 | 会流失/不会流失 | LTV = 12,500元 |
| 售后场景 | 客户流失、故障类型 | 维修时长、备件需求 |
| 评估指标 | 准确率、召回率、F1 | MAE、RMSE、R² |
深度案例1:客户流失预测(分类问题)
业务背景
某新能源车企,保有客户10万,2024年Q1客户流失率从15%突然上升至28%,CEO要求售后总监在30天内解决问题。
传统做法的困境
售后总监王总采取了一系列措施:
- 给所有客户群发短信提醒保养
- 推出全员8折优惠活动
- 增加客服人员
结果:
- 成本增加500万元
- 流失率只降低了3%(28% → 25%)
- ROI极低,CEO非常不满
问题在哪?
王总是"盲打"——对所有客户一视同仁,没有识别出真正的高风险客户。
机器学习的做法
第1步:数据准备
收集过去2年的客户数据:
- 流失客户:15,000人
- 未流失客户:85,000人
- 共100,000样本
每个客户包含50个特征:
- 基础信息:车型、车龄、购车渠道、地理位置
- 行为数据:到店频次、最近一次到店时间、平均消费金额
- 服务数据:等待时长、FTFR(首次修复率)、投诉次数
- 互动数据:APP使用频次、客服联系次数、活动参与度
第2步:模型训练
使用70,000样本训练模型,30,000样本测试。
采用随机森林(Random Forest)算法,训练后模型性能:
- 准确率:82%(100个预测中,82个是对的)
- 召回率:76%(100个真实会流失的客户中,识别出76个)
- 精确率:68%(100个预测会流失的客户中,68个真的流失了)
第3步:特征重要性分析
模型揭示了客户流失的Top 10关键因素:
- 最近一次到店距今天数(权重:18%)
- 超过90天未到店,流失风险+45%
- 最近一次维修等待时长(权重:15%)
- 等待超过2小时,流失风险+38%
- 竞品门店距离(权重:12%)
- 竞品门店距离<3公里,流失风险+32%
- 客户投诉次数(权重:11%)
- 有未解决投诉,流失风险+55%
- 价格敏感度(权重:9%)
- 经常询价比价,流失风险+28%
- APP使用频率(权重:8%)
- 30天未打开APP,流失风险+25%
- 维修费用趋势(权重:7%)
- 最近一次费用比历史均值高50%+,流失风险+35%
- 服务顾问更换次数(权重:6%)
- 半年内更换2次以上,流失风险+22%
- 车龄(权重:5%)
- 车龄3-5年(过保),流失风险+18%
- 社交媒体情绪(权重:4%)
- 在社交媒体发负面评价,流失风险+40%
第4步:精准干预
模型识别出5,000名高风险客户,按风险程度分层干预:
高风险(1,500人,流失概率>80%):
- 总监亲自致电
- 免费上门取送车服务
- 赠送价值1,000元的保养套餐
- 安排专属服务顾问
- 成本:150万元
- 挽回率:62%(930人)
中风险(2,500人,流失概率60-80%):
- 服务经理致电
- 提供代步车服务
- 8折优惠券
- 成本:100万元
- 挽回率:48%(1,200人)
低风险(1,000人,流失概率40-60%):
- 自动化短信+APP推送
- 5折小保养券
- 成本:10万元
- 挽回率:30%(300人)
总成本:260万元
总挽回:2,430人
挽回价值:2,430人 × 8,000元(5年LTV)= 1,944万元
ROI:(1,944 - 260) / 260 = 648%
对比王总的盲打策略:
- 成本:500万元
- 效果:流失率降低3%
- ROI:约50%
机器学习方法的ROI是传统方法的13倍!
深度案例2:维修时长预测(回归问题)
业务痛点
某车企售后门店,客户最大的抱怨是:等待时间不确定
- 客户来店时,服务顾问说"大概2小时"
- 结果4小时才修好
- 客户白等了2小时,满意度暴跌
传统估算方法
服务顾问凭经验估算:
- 新手顾问:准确率40%
- 资深顾问:准确率65%
- 平均误差:±1.5小时
问题:
- 估算过短 → 客户等待 → 投诉
- 估算过长 → 客户不来 → 流失
机器学习方案
数据收集(过去1年,50,000个维修工单):
输入特征(30个):
- 故障类型(电池/电机/底盘/内饰...)
- 车型(15个车型)
- 车龄(0-8年)
- 配件库存状态(有货/需调货)
- 技师经验水平(初级/中级/高级)
- 当前门店工作负荷(当前排队工单数)
- 时间因素(工作日/周末,上午/下午)
- 历史该车维修记录
输出目标:
- 实际维修时长(分钟)
模型选择:梯度提升树(Gradient Boosting)
模型性能:
- 平均绝对误差(MAE):22分钟
- 均方根误差(RMSE):35分钟
- R²(决定系数):0.89(89%的时长变化可被模型解释)
对比:
- 传统方法:平均误差90分钟
- 机器学习:平均误差22分钟
- 准确度提升4倍
业务应用
场景1:客户预约时精准告知
客户李先生预约保养,系统自动预测:
- 输入:李先生的车型、车龄、保养项目、预约时段、配件库存状况
- 输出:预计耗时 1小时45分钟(±15分钟)
服务顾问明确告知:"李先生,根据您的车况和我们的排班情况,预计1小时45分钟完成,最晚不超过2小时。"
结果:
- 李先生准确安排时间
- 实际用时1小时50分钟
- 客户满意度:非常满意
场景2:动态排班优化
当天早上,系统预测今日12个工单的总时长:
- 工单1:2.3小时
- 工单2:0.8小时
- 工单3:4.5小时(大修)
- ...
- 总计:28小时
当前技师配置:4人 × 8小时 = 32工时
系统建议:
- 工单3(大修)分配给最资深技师
- 工单2、工单6(快修)分配给同一技师连续完成
- 预计可在下午6点前完成所有工单
实际效果:
- 使用预测系统前:每天平均2-3个工单需跨天完成
- 使用预测系统后:95%的工单当天完成
- 客户满意度(NPS)从58提升至76
场景3:客户沟通透明化
在维修过程中,如果发现需要更换额外配件:
- 系统实时更新预测时长:1小时45分钟 → 3小时20分钟
- 自动发送短信给客户:"李先生,维修中发现需更换刹车盘,预计延长1.5小时,总计3小时20分钟完成,是否继续?"
- 客户回复确认
透明沟通大幅降低投诉率:从12%降至3%
分类和回归的评估指标
分类问题的评估指标
1. 准确率(Accuracy)
- 定义:预测正确的样本占总样本的比例
- 公式:准确率 = 正确预测数 / 总预测数
- 例子:100个客户,预测82个正确,准确率 = 82%
- 局限:在样本不平衡时会误导
2. 召回率(Recall)
- 定义:真实为正的样本中,被正确识别的比例
- 公式:召回率 = 正确识别的正样本 / 全部正样本
- 例子:100个真实会流失的客户,识别出76个,召回率 = 76%
- 业务意义:不要漏掉真正会流失的客户
3. 精确率(Precision)
- 定义:预测为正的样本中,真正为正的比例
- 公式:精确率 = 正确识别的正样本 / 预测为正的样本
- 例子:预测100个会流失,其中68个真的流失,精确率 = 68%
- 业务意义:不要浪费资源在不会流失的客户上
4. F1 分数
- 定义:精确率和召回率的调和平均数
- 公式:F1 = 2 × (精确率 × 召回率) / (精确率 + 召回率)
- 作用:综合评估模型性能
回归问题的评估指标
1. 平均绝对误差(MAE - Mean Absolute Error)
- 定义:预测值与真实值的平均绝对差
- 公式:MAE = Σ|预测值 - 真实值| / n
- 例子:预测维修时长平均误差22分钟
- 优点:直观易懂,单位与原始数据相同
2. 均方根误差(RMSE - Root Mean Square Error)
- 定义:预测值与真实值差的平方的平均值的平方根
- 公式:RMSE = √(Σ(预测值 - 真实值)² / n)
- 例子:RMSE = 35分钟
- 特点:对大误差更敏感(因为有平方)
3. 决定系数(R² - R Squared)
- 定义:模型解释的方差占总方差的比例
- 范围:0 到 1,越接近1越好
- 例子:R² = 0.89,说明89%的时长变化可被模型解释
- 意义:评估模型的整体拟合优度
从理论到实践:你的第一个分类模型
实战项目:构建客户流失预测模型(简化版)
目标:用Excel + 简单公式,理解分类模型的本质
数据(假设你有100个客户的历史数据):
| 客户ID | 最近到店天数 | 年消费金额 | 投诉次数 | 是否流失 |
|---|---|---|---|---|
| 001 | 120 | 3000 | 0 | 是 |
| 002 | 30 | 8000 | 0 | 否 |
| 003 | 90 | 2000 | 2 | 是 |
| ... | ... | ... | ... | ... |
步骤1:探索性分析
分别计算流失客户和未流失客户的特征均值:
| 特征 | 流失客户均值 | 未流失客户均值 | 差异 |
|---|---|---|---|
| 最近到店天数 | 95天 | 35天 | 大 |
| 年消费金额 | 3500元 | 6800元 | 大 |
| 投诉次数 | 1.2次 | 0.3次 | 大 |
发现:这3个特征对流失有显著影响
步骤2:制定简单规则(决策树逻辑)
如果 最近到店天数 > 90天:
预测:会流失
否则:
如果 投诉次数 > 1:
预测:会流失
否则:
如果 年消费金额 < 4000元:
预测:会流失
否则:
预测:不会流失
步骤3:在测试数据上验证
用这个规则预测另外30个客户:
- 预测会流失12人,其中9人真的流失 → 精确率 75%
- 真实流失10人,识别出9人 → 召回率 90%
步骤4:业务应用
对预测会流失的12人,安排服务顾问致电关怀。
下一步学习路径
今天我们学习了监督学习的两大任务:
- 分类:预测类别(会流失/不会流失)
- 回归:预测数值(维修时长、LTV)
接下来,我们会学习:
- 非监督学习:当没有标签时,如何发现数据中的模式
- 时间序列预测:如何预测未来的趋势(备件需求、到店量)
- 实战项目:动手构建一个完整的预测模型
下一节预告:Day 17 知识点3 - 非监督学习:聚类分析 | 让数据自己说话