为什么大多数事故调查都失败了
2020年某服务中心高压事故调查报告(失败案例):
"技师操作不当,违反安全规程,导致触电事故。"
"处理:对当事技师进行警告处分,加强安全培训。"
6个月后,同一个服务中心再次发生类似事故。
为什么?
因为这个调查只找到了表面原因(症状),没有找到根本原因(病因)。
事故调查的三个层次
Level 1:表面原因(Symptom)
典型表述:
- "技师操作不当"
- "员工违反规程"
- "设备故障"
- "沟通不畅"
问题:
- 这些都是现象,不是原因
- 只能治标,不能治本
- 会导致同类事故重复发生
Level 2:直接原因(Immediate Cause)
典型表述:
- "技师跳过了电压测试步骤"
- "LOTO程序未执行"
- "灭火器失效"
- "培训不到位"
问题:
- 找到了怎么发生,但没找到为什么发生
- 改进措施往往是加强管理、加强培训
- 这些措施通常无法持续有效
Level 3:根本原因(Root Cause)
典型表述:
- "绩效考核机制导致技师为了赶时间而简化流程"
- "LOTO锁具数量不足,无法实现个人锁"
- "灭火器检查责任不明确,无人真正负责"
- "培训内容与实际工作场景脱节"
特点:
- 找到了系统性问题
- 改进措施可以从根本上预防类似事故
- 需要深度挖掘才能找到
5 Why分析法:深挖根因的利器
5 Why方法由丰田公司创始人丰田喜一郎发明,Tesla将其应用于EHS事故调查。
基本原理
连续问5次"为什么",从表象逐步深入到根本原因。
为什么是5次?
根据统计:
- 问1次:找到表面原因
- 问2-3次:找到直接原因
- 问4-5次:通常能找到根本原因
- 超过5次:可能过度分析,陷入细枝末节
但5不是绝对的,有时3次就够,有时需要7次。关键是问到系统性原因为止。
经典案例:深圳高压触电事故
2022年7月15日,某服务中心技师更换电池包时触电,左手三指永久性损伤。
传统调查(失败)
结论: "技师违反操作规程,未执行双人确认断电程序。"
处理: "对技师进行处分,全员加强安全培训。"
5 Why深度调查(成功)
问题陈述: 技师在电池包仍带电的情况下触碰接线端子。
Why 1:为什么技师会触碰带电端子?
答:因为他认为电池已经断电。
Why 2:为什么他认为已经断电?
答:因为他执行了断电程序,但没有用万用表测试电压。
Why 3:为什么没有测试电压?
答:因为万用表在另一个技师那里,他不想等,就直接开始作业了。
(关键转折点:这里暴露了工具管理问题)
Why 4:为什么万用表不够用?
答:因为整个服务中心只有2个万用表,但有4个工位同时进行高压作业。
(发现系统性问题:资源配置不足)
Why 5:为什么只配2个万用表?
答:因为采购预算中没有单独考虑安全工具,采购人员按照"够用"原则购买,没有考虑高峰期需求。
(找到根本原因:预算机制和采购流程缺陷)
Why 6:为什么预算机制有缺陷?
答:因为EHS成本没有纳入必要成本,而是作为"可优化成本",导致采购时被压缩。
对比两种调查的改进措施
传统调查的改进措施:
- ❌ 加强安全培训
- ❌ 严格执行操作规程
- ❌ 加大处罚力度
效果: 3个月后问题依然存在,因为根本问题(工具不足)没有解决。
5 Why调查的改进措施:
- ✅ 立即采购:每个高压工位配备1个专用万用表(4个工位=4个万用表)
- ✅ 流程优化:建立"工具必备检查清单",作业前必须确认工具齐全
- ✅ 预算改革:将EHS工具列入"必要成本",不得压缩
- ✅ 采购流程:安全工具采购由EHS专员审核,不经过"成本优化"环节
- ✅ 备用机制:建立10%的安全工具冗余,应对高峰需求
效果: 2年内该服务中心再无类似事故发生。
5 Why的6大实战技巧
技巧1:从具体事实出发,不要从假设出发
错误示范:
问题:技师为什么触电?
Why 1:因为他可能不小心。
("可能"是假设,不是事实)
正确示范:
问题:技师为什么触电?
Why 1:因为他用金属工具触碰了带电端子。(这是确认的事实)
Why 2:为什么端子带电?
答:因为断电程序未完全执行。(查看记录确认)
技巧2:问"为什么会这样",不要问"谁的错"
错误示范:
Why 1:谁没有执行LOTO?
答:技师A。
(这是追责,不是分析)
正确示范:
Why 1:为什么LOTO没有执行?
答:因为技师认为这是"小维修",不需要LOTO。
Why 2:为什么技师会认为不需要LOTO?
答:因为培训中没有明确所有高压作业都必须LOTO。
(找到了培训内容缺陷)
技巧3:每一个"为什么"都要有证据支撑
证据来源:
- 现场照片/视频
- 设备记录/日志
- 员工访谈记录
- 相关文件/制度
- 测试/实验数据
示例:
Why 3:为什么万用表不够用?
证据:
- 工具领用记录显示:4个工位,但当天有6次领用万用表的记录,其中2次被拒绝
- 员工访谈:5位技师中有3位提到"经常等工具"
技巧4:警惕"因为人的问题"的结论
如果你的分析链条最后停在:
- "因为员工素质低"
- "因为技师不负责"
- "因为沟通不好"
说明你还没找到根本原因。
继续问:
- 为什么会招到"素质低"的员工?(招聘标准问题)
- 为什么技师"不负责"?(激励机制问题)
- 为什么"沟通不好"?(流程设计问题)
技巧5:用"如果...那么..."测试根本原因
测试方法:
如果解决了这个根本原因,那么类似事故是否能预防?
示例:
假设根本原因1: "技师安全意识不够"
测试:如果加强培训,提高安全意识,能否预防?
结果:不能,因为工具不足的问题依然存在。
结论:这不是真正的根本原因。
假设根本原因2: "安全工具配置不足"
测试:如果每个工位都有专用万用表,能否预防?
结果:能,技师不会因为等工具而跳过测试步骤。
结论:这是真正的根本原因之一。
技巧6:一个事故可能有多个根本原因
5 Why不是线性的,可能是树状的。
示例:深圳触电事故的完整分析树
事故:技师触电
├─ Why分支1:工具配置
│ ├─ Why 1:未测电压
│ ├─ Why 2:万用表不足
│ ├─ Why 3:采购预算不足
│ └─ Why 4:EHS预算机制缺陷 ← 根本原因1
│
├─ Why分支2:流程设计
│ ├─ Why 1:未执行LOTO
│ ├─ Why 2:认为不需要LOTO
│ ├─ Why 3:培训内容不明确
│ └─ Why 4:培训体系与实际脱节 ← 根本原因2
│
└─ Why分支3:文化氛围
├─ Why 1:赶时间
├─ Why 2:绩效压力大
├─ Why 3:效率优先于安全的文化
└─ Why 4:管理层重业绩轻安全 ← 根本原因3
因此,真正有效的改进措施需要同时解决这三个根本原因。
事故调查的标准流程
阶段1:现场保护与证据收集(事故后2小时内)
立即行动:
- 保护现场
- 拉警戒线
- 拍照/录像(全景+细节)
- 禁止无关人员进入
- 收集物证
- 工具状态
- 设备状态
- 损坏部件
- 相关记录
- 固定人证
- 当事人陈述
- 目击者陈述
- 专家记录
关键原则: "证据会消失,必须第一时间固定。"
阶段2:事实还原(事故后24小时内)
建立时间线:
示例:深圳触电事故时间线
| 时间 | 事件 | 证据来源 |
|---|---|---|
| 14:30 | 技师A接到工单 | 系统记录 |
| 14:45 | 技师A到达工位 | 监控视频 |
| 14:50 | 技师A尝试领取万用表 | 工具室记录 |
| 14:51 | 被告知万用表已被借出 | 工具管理员证言 |
| 14:52 | 技师A决定先开始 | 技师A陈述 |
| 15:03 | 技师A执行断电操作 | 技师A陈述 |
| 15:05 | 触电事故发生 | 事故报告 |
关键发现: 从领不到工具(14:51)到事故发生(15:05)仅14分钟,说明工具不足是直接触发因素。
阶段3:5 Why分析(事故后48小时内)
组建调查小组:
- EHS专员(主导)
- 技术专家(1人)
- 现场主管(1人)
- 人力资源(1人)
- 必要时邀请外部专家
分析会议:
- 时长:2-4小时
- 使用白板/在线协作工具
- 记录完整分析过程
- 达成一致结论
阶段4:改进措施制定(事故后72小时内)
SMART原则:
每个改进措施必须:
- Specific(具体):不是"加强管理",而是"采购4个万用表"
- Measurable(可衡量):"事故率下降50%"
- Achievable(可实现):有预算、有资源
- Relevant(相关):针对根本原因
- Time-bound(有期限):"1周内完成采购"
措施分类:
即时措施(Immediate Actions):
- 时间:24小时内
- 目的:防止事故重复
- 示例:"立即从其他中心调配2个万用表"
短期措施(Short-term Actions):
- 时间:1-4周
- 目的:解决直接原因
- 示例:"完成4个万用表采购和配置"
长期措施(Long-term Actions):
- 时间:1-3个月
- 目的:解决根本原因
- 示例:"建立EHS预算保障机制"
阶段5:跟踪验证(事故后3个月内)
验证清单:
✅ 所有改进措施是否按时完成?
✅ 措施是否真正有效?
✅ 是否有副作用?
✅ 员工是否接受和执行?
✅ 是否需要调整?
跟踪频率:
- 第1周:每日跟踪
- 第2-4周:每周跟踪
- 第2-3月:每月跟踪
Near Miss(未遂事件)的重要性
Heinrich法则(海因里希法则):
在一个企业中:
- 1起重大伤亡事故背后
- 有29起轻伤事故
- 有300起无伤害事故(Near Miss)
- 有1000起安全隐患
比例:1:29:300:1000
这意味着什么?
如果你能捕捉和分析300起Near Miss,就能预防1起重大事故。
Near Miss报告机制
什么是Near Miss?
定义: 差一点就造成伤害或损失的事件。
示例:
- 电池包冒烟但未起火
- 工具掉落但未砸到人
- 差点触电但及时发现
- 几乎滑倒但没摔
Tesla的Near Miss文化:
- 无责报告:报告Near Miss不会被处罚,反而会被奖励
- 快速响应:24小时内必须分析和反馈
- 全员学习:每周分享Near Miss案例
- 持续改进:每个Near Miss都要有改进措施
激励机制:
- 每报告1起Near Miss:奖励50元
- 每月报告最多的员工:额外奖励500元
- 季度"安全观察员"表彰
为什么要奖励?
因为大多数人不愿意报告Near Miss,原因是:
- 怕麻烦
- 怕被责怪
- 觉得"反正没出事"
但Near Miss是预防重大事故的金矿。
实战练习:分析一个真实案例
案例:某服务中心废旧电池储存区温度报警
2023年8月3日,下午3点,防爆柜温度达到48°C,触发报警。
传统处理:
- 打开柜门散热
- 温度降下来后继续使用
- 没有深入分析
请用5 Why分析这个Near Miss:
Why 1:为什么温度会升到48°C?
提示:正常应该≤45°C
Why 2:为什么散热不足?
提示:检查防爆柜的散热系统
Why 3:为什么散热系统失效?
提示:维护记录
Why 4:为什么没有及时维护?
提示:责任归属
Why 5:为什么责任不明确?
提示:管理机制
标准答案和改进措施将在Day 27.2中揭晓。
记住:事故调查的目的不是追责,而是预防。
如果调查结果只有"加强管理、加强培训",说明你还没找到根本原因。
5 Why的精髓:问到系统性问题为止,改到类似事故不再发生为止。