1. 谨慎
(1)能备份的东西在操作前一定要备份,不要省略,往往能迅速挽救生命;
(2)在线操作必须在测试环境中获得授权和验证,或者必须在大多数人共同决定后进行。不要提出自己的主张;
(3)可以用工具操作的东西,不要手动打上所谓的tall命令,可以提前写成脚本,不要手动操作;
(4)对线路有影响的操作,需要评估流量低峰期,错峰流量;
(5)添加基础报警前请不要上线,请务必使用业务上线前报警;
(6)作为运维工程师对报警系统的敬畏、上午例行检查、历史故障总结等;
2. 失败
(1)发生故障时,优先恢复业务,而不是找问题;
(2)困难故障需要故障升级通道,所有可用资源由Leader协调;
(3) 运维工程师按流程造成的故障,不记入员工KPI考核,但记入Leader KPI考核,推动流程整改;
(4)未按程序操作,造成在线重大故障的,应记录在工程师和领队的KPI考核中,并对故障承担连带责任;
3. 失败案例研究
(1)故障发生渠道、发现时间点、参与者、故障定位流程、解决流程、故障根源分析、是否需要形成应急预案;
(2)故障是否暂时或永久解决,现有环境是否存在类似隐患;
4. 改变
(1)配置代码必须遵循蓝绿发布原则,上线前测试环境确认没有问题;
(2)备份的重要性和检查机制的建立;
(3)操作步骤命令或基于工具的,而不是模棱两可的文字描述;
5. 协调
(1)轮换期间,IT运维人员必须保证7*24小时待命,随时响应报警。计算机和网络随时可用,两者缺一不可;
(2)做好值班期间的故障处理和日常工作进度记录,故障用于后续分析,工作进度用于将未处理的事务转交下一周期值班人员跟进;
(3)在值班过程中出现了棘手的故障,不能简单地交接下一个值班人员。下班前需根据实际情况确认是否有值班人员办理;
(4)要定期组织轮值人员,了解轮值期间发现的故障和问题。