Day 17 知识点2：监督学习 - 分类与回归 | 预测的两种武器-似水流年

监督学习：机器学习中最实用的技术

监督学习的两大任务

任务1：分类（Classification）

定义：预测离散的类别标签

通俗理解：把东西分到不同的"盒子"里

售后运营中的分类问题：

1. 客户流失预测

输入：客户的历史行为数据
输出：会流失 / 不会流失（2分类）
或者：高风险 / 中风险 / 低风险（3分类）

2. 故障类型识别

输入：故障描述、车辆信息、环境数据
输出：电池故障 / 电机故障 / 传动系统故障 / 其他

3. 客户满意度预测

输入：服务过程数据（等待时间、维修时长、价格等）
输出：非常满意 / 满意 / 一般 / 不满意

4. 投诉严重程度判断

输入：投诉内容文本
输出：紧急 / 重要 / 一般

任务2：回归（Regression）

定义：预测连续的数值

通俗理解：预测一个具体的数字

售后运营中的回归问题：

1. 客户生命周期价值（LTV）预测

输入：客户档案、历史消费
输出：未来5年总价值 = 12,500元

2. 维修时长预测

输入：故障类型、车型、配件库存
输出：预计维修时长 = 2.5小时

3. 备件需求量预测

输入：历史销售数据、季节、促销计划
输出：下月需求量 = 128个

4. 客户到店间隔预测

输入：客户历史到店记录
输出：预计下次到店时间 = 45天后

分类 vs 回归：一个对比表

维度	分类（Classification）	回归（Regression）
预测目标	类别标签	数值
输出类型	离散值	连续值
例子	会流失/不会流失	LTV = 12,500元
售后场景	客户流失、故障类型	维修时长、备件需求
评估指标	准确率、召回率、F1	MAE、RMSE、R²

深度案例1：客户流失预测（分类问题）

业务背景

某新能源车企，保有客户10万，2024年Q1客户流失率从15%突然上升至28%，CEO要求售后总监在30天内解决问题。

传统做法的困境

售后总监王总采取了一系列措施：

给所有客户群发短信提醒保养
推出全员8折优惠活动
增加客服人员

结果：

成本增加500万元
流失率只降低了3%（28% → 25%）
ROI极低，CEO非常不满

问题在哪？

王总是"盲打"——对所有客户一视同仁，没有识别出真正的高风险客户。

机器学习的做法

第1步：数据准备

收集过去2年的客户数据：

流失客户：15,000人
未流失客户：85,000人
共100,000样本

每个客户包含50个特征：

基础信息：车型、车龄、购车渠道、地理位置
行为数据：到店频次、最近一次到店时间、平均消费金额
服务数据：等待时长、FTFR（首次修复率）、投诉次数
互动数据：APP使用频次、客服联系次数、活动参与度

第2步：模型训练

使用70,000样本训练模型，30,000样本测试。

采用随机森林（Random Forest）算法，训练后模型性能：

准确率：82%（100个预测中，82个是对的）
召回率：76%（100个真实会流失的客户中，识别出76个）
精确率：68%（100个预测会流失的客户中，68个真的流失了）

第3步：特征重要性分析

模型揭示了客户流失的Top 10关键因素：

最近一次到店距今天数（权重：18%）
- 超过90天未到店，流失风险+45%
最近一次维修等待时长（权重：15%）
- 等待超过2小时，流失风险+38%
竞品门店距离（权重：12%）
- 竞品门店距离<3公里，流失风险+32%
客户投诉次数（权重：11%）
- 有未解决投诉，流失风险+55%
价格敏感度（权重：9%）
- 经常询价比价，流失风险+28%
APP使用频率（权重：8%）
- 30天未打开APP，流失风险+25%
维修费用趋势（权重：7%）
- 最近一次费用比历史均值高50%+，流失风险+35%
服务顾问更换次数（权重：6%）
- 半年内更换2次以上，流失风险+22%
车龄（权重：5%）
- 车龄3-5年（过保），流失风险+18%
社交媒体情绪（权重：4%）
- 在社交媒体发负面评价，流失风险+40%

第4步：精准干预

模型识别出5,000名高风险客户，按风险程度分层干预：

高风险（1,500人，流失概率>80%）：

总监亲自致电
免费上门取送车服务
赠送价值1,000元的保养套餐
安排专属服务顾问
成本：150万元
挽回率：62%（930人）

中风险（2,500人，流失概率60-80%）：

服务经理致电
提供代步车服务
8折优惠券
成本：100万元
挽回率：48%（1,200人）

低风险（1,000人，流失概率40-60%）：

自动化短信+APP推送
5折小保养券
成本：10万元
挽回率：30%（300人）

总成本：260万元

总挽回：2,430人

挽回价值：2,430人 × 8,000元（5年LTV）= 1,944万元

ROI：(1,944 - 260) / 260 = 648%

对比王总的盲打策略：

成本：500万元
效果：流失率降低3%
ROI：约50%

机器学习方法的ROI是传统方法的13倍！

深度案例2：维修时长预测（回归问题）

业务痛点

某车企售后门店，客户最大的抱怨是：等待时间不确定

客户来店时，服务顾问说"大概2小时"
结果4小时才修好
客户白等了2小时，满意度暴跌

传统估算方法

服务顾问凭经验估算：

新手顾问：准确率40%
资深顾问：准确率65%
平均误差：±1.5小时

问题：

估算过短 → 客户等待 → 投诉
估算过长 → 客户不来 → 流失

机器学习方案

数据收集（过去1年，50,000个维修工单）：

输入特征（30个）：

故障类型（电池/电机/底盘/内饰...）
车型（15个车型）
车龄（0-8年）
配件库存状态（有货/需调货）
技师经验水平（初级/中级/高级）
当前门店工作负荷（当前排队工单数）
时间因素（工作日/周末，上午/下午）
历史该车维修记录

输出目标：

实际维修时长（分钟）

模型选择：梯度提升树（Gradient Boosting）

模型性能：

平均绝对误差（MAE）：22分钟
均方根误差（RMSE）：35分钟
R²（决定系数）：0.89（89%的时长变化可被模型解释）

对比：

传统方法：平均误差90分钟
机器学习：平均误差22分钟
准确度提升4倍

业务应用

场景1：客户预约时精准告知

客户李先生预约保养，系统自动预测：

输入：李先生的车型、车龄、保养项目、预约时段、配件库存状况
输出：预计耗时 1小时45分钟（±15分钟）

服务顾问明确告知："李先生，根据您的车况和我们的排班情况，预计1小时45分钟完成，最晚不超过2小时。"

结果：

李先生准确安排时间
实际用时1小时50分钟
客户满意度：非常满意

场景2：动态排班优化

当天早上，系统预测今日12个工单的总时长：

工单1：2.3小时
工单2：0.8小时
工单3：4.5小时（大修）
...
总计：28小时

当前技师配置：4人 × 8小时 = 32工时

系统建议：

工单3（大修）分配给最资深技师
工单2、工单6（快修）分配给同一技师连续完成
预计可在下午6点前完成所有工单

实际效果：

使用预测系统前：每天平均2-3个工单需跨天完成
使用预测系统后：95%的工单当天完成
客户满意度（NPS）从58提升至76

场景3：客户沟通透明化

在维修过程中，如果发现需要更换额外配件：

系统实时更新预测时长：1小时45分钟 → 3小时20分钟
自动发送短信给客户："李先生，维修中发现需更换刹车盘，预计延长1.5小时，总计3小时20分钟完成，是否继续？"
客户回复确认

透明沟通大幅降低投诉率：从12%降至3%

分类和回归的评估指标

分类问题的评估指标

1. 准确率（Accuracy）

定义：预测正确的样本占总样本的比例
公式：准确率 = 正确预测数 / 总预测数
例子：100个客户，预测82个正确，准确率 = 82%
局限：在样本不平衡时会误导

2. 召回率（Recall）

定义：真实为正的样本中，被正确识别的比例
公式：召回率 = 正确识别的正样本 / 全部正样本
例子：100个真实会流失的客户，识别出76个，召回率 = 76%
业务意义：不要漏掉真正会流失的客户

3. 精确率（Precision）

定义：预测为正的样本中，真正为正的比例
公式：精确率 = 正确识别的正样本 / 预测为正的样本
例子：预测100个会流失，其中68个真的流失，精确率 = 68%
业务意义：不要浪费资源在不会流失的客户上

4. F1 分数

定义：精确率和召回率的调和平均数
公式：F1 = 2 × (精确率 × 召回率) / (精确率 + 召回率)
作用：综合评估模型性能

回归问题的评估指标

1. 平均绝对误差（MAE - Mean Absolute Error）

定义：预测值与真实值的平均绝对差
公式：MAE = Σ|预测值 - 真实值| / n
例子：预测维修时长平均误差22分钟
优点：直观易懂，单位与原始数据相同

2. 均方根误差（RMSE - Root Mean Square Error）

定义：预测值与真实值差的平方的平均值的平方根
公式：RMSE = √(Σ(预测值 - 真实值)² / n)
例子：RMSE = 35分钟
特点：对大误差更敏感（因为有平方）

3. 决定系数（R² - R Squared）

定义：模型解释的方差占总方差的比例
范围：0 到 1，越接近1越好
例子：R² = 0.89，说明89%的时长变化可被模型解释
意义：评估模型的整体拟合优度

从理论到实践：你的第一个分类模型

实战项目：构建客户流失预测模型（简化版）

目标：用Excel + 简单公式，理解分类模型的本质

数据（假设你有100个客户的历史数据）：

客户ID	最近到店天数	年消费金额	投诉次数	是否流失
001	120	3000	0	是
002	30	8000	0	否
003	90	2000	2	是
...	...	...	...	...

步骤1：探索性分析

分别计算流失客户和未流失客户的特征均值：

特征	流失客户均值	未流失客户均值	差异
最近到店天数	95天	35天	大
年消费金额	3500元	6800元	大
投诉次数	1.2次	0.3次	大

发现：这3个特征对流失有显著影响

步骤2：制定简单规则（决策树逻辑）

如果 最近到店天数 > 90天：
    预测：会流失
否则：
    如果 投诉次数 > 1：
        预测：会流失
    否则：
        如果 年消费金额 < 4000元：
            预测：会流失
        否则：
            预测：不会流失

步骤3：在测试数据上验证

用这个规则预测另外30个客户：

预测会流失12人，其中9人真的流失 → 精确率 75%
真实流失10人，识别出9人 → 召回率 90%

步骤4：业务应用

对预测会流失的12人，安排服务顾问致电关怀。

下一步学习路径

今天我们学习了监督学习的两大任务：

分类：预测类别（会流失/不会流失）
回归：预测数值（维修时长、LTV）

接下来，我们会学习：

非监督学习：当没有标签时，如何发现数据中的模式
时间序列预测：如何预测未来的趋势（备件需求、到店量）
实战项目：动手构建一个完整的预测模型

下一节预告：Day 17 知识点3 - 非监督学习：聚类分析 | 让数据自己说话

Day 17 知识点2：监督学习 - 分类与回归 | 预测的两种武器