故障记录规范
case study 基本信息
会议时间 | 填写case study的会议时间 |
参与人 | 填写参与case study的同学 |
报告人 | 填写case study报告编写人 |
icafe故障单 | 填写与该故障关联的icafe单 |
故障级别 | 参照公司事故定级标准,填写确定的故障级别 |
是否对用户产生影响 | 填写是或否 |
故障发现方式 | 填写故障是通过什么方式发现的,比如:监控,人工保障等。 |
受影响业务 | 填写该故障影响了哪些业务(如:钱包,糯米) |
造成故障的服务 | 填写哪个服务造成了该次故障(如:钱包) |
故障持续时间 | 填写故障从发生到止损完成总耗费的时间 |
自我恢复 | 填写是或否 |
case 详细信息
【故障概要描述】 | 对故障进行概要描述,写清楚何时何系统因何原因发生什么故障,总体影响是什么(PV有损,服务拒绝还是功能错误?) | ||
【故障关键时间点】 | 请按如下格式描述: 1,故障发生时间:yyyy-mm-dd hh24:mi 2,故障感知时间:yyyy-mm-dd hh24:mi 3,止损完成时间:yyyy-mm-dd hh24:mi | ||
【故障影响和损失】 | 详细描述故障对业务造成的影响以及具体的损失数据,格式: | ||
【故障原因分析】 | 描述故障根本原因,以及此原因导致故障发生的逻辑。如录入case时,故障根本原因未定位,可后续补录。如最终故障根本原因未定位,可填写原因未明。 | ||
【故障过程详情&问题&改进】 | 现象&处理 | 暴露的问题 | 改进措施 |
以时间顺序详细描述故障发生(诱发)、发展(扩散、隔离)、发现(监控、测试)、处理(止损)过程及其间系统的表现,重点关注诱发原因、扩散条件、止损动作、止损效果等关键要素,每句以时间开头,每个关键节点单独写一行。下面以历史case给出了示例: | 描述对应“现象&处理”中暴露出来的问题,包括技术、流程、意识方面的问题。下面以历史case给出了示例: | 针对暴露的问题,提出具体改进措施,每条措施需要包含五方面内容:针对的问题、措施具体内容、负责人、完成时间、措施落地效果计划如何验证或措施落地产出物。下面以历史case给出了示例: | |
2015年9月23日 13:27 BFE公共集群上线劫持统计功能,开始在所有机房进行单机发布回归,流量较小,监控无感知。 | 问题1:BFE和业务之间缺少联动信息通报。 | 改进措施1:针对问题1,短期内强化BFE和业务之间的联动信息通报,BFE变更操作通知各个业务线,糯米关键指标变化通知BFE。***负责,****时间内完成,产出物:BFE和各业务条线信息通报机制文档。 | |
15:37 BFE所有机房全量上线。 | 问题3:BFE上线有bug,测试阶段未发现。 | 改进措施3:针对问题3,强化测试环节,后续BFE协议相关的修改,都要联合业务线,针对核心做功能性case回归。***负责,****时间内完成。产出物:BFE与业务线功能性回归测试方案 | |
15:55 糯米业务波动监控预警发出,糯米运维和研发团队开始排查问题。 | 问题4:端上的服务质量检测能力不足:缺少快速定位手段 | 改进措施5:针对问题4,补充app端的监控,建设端上的可用性数据指标和异常判断能力。***负责,****时间内完成。通过展示app端的监控效果验证。 改进措施6:针对问题4,继续推动完成糯米依赖和自身服务变更数据的汇总,与糯米业务监控omon系统联动,提升故障定位效率。***负责,****时间内完成。通过展示与omon系统联动效果进行验证。 | |
16:29 完成BFE配置回滚,同时糯米业务完成BFE故障预案(绕过BFE),服务开始恢复。 | 无 | 无 | |
【事故责任认定】 | 描述最终决定的事故责任认定情况 | ||
【标准问题checklist】 | 下面是一些标准问题。如果在原因分析/改进措施中已经处理,请写上改进措施序号。对于没有处理的,说明为什么不需要处理。
|