一个合格的 IT 运维工程师需要知道的

1. 谨慎

（1）能备份的东西在操作前一定要备份，不要省略，往往能迅速挽救生命；

（2）在线操作必须在测试环境中获得授权和验证，或者必须在大多数人共同决定后进行。不要提出自己的主张；

（3）可以用工具操作的东西，不要手动打上所谓的tall命令，可以提前写成脚本，不要手动操作；

（4）对线路有影响的操作，需要评估流量低峰期，错峰流量；

（5）添加基础报警前请不要上线，请务必使用业务上线前报警；

（6）作为运维工程师对报警系统的敬畏、上午例行检查、历史故障总结等；

2. 失败

（1）发生故障时，优先恢复业务，而不是找问题；

（2）困难故障需要故障升级通道，所有可用资源由Leader协调；

（3）运维工程师按流程造成的故障，不记入员工KPI考核，但记入Leader KPI考核，推动流程整改；

（4）未按程序操作，造成在线重大故障的，应记录在工程师和领队的KPI考核中，并对故障承担连带责任；

IT运维

3. 失败案例研究

（1）故障发生渠道、发现时间点、参与者、故障定位流程、解决流程、故障根源分析、是否需要形成应急预案；

（2）故障是否暂时或永久解决，现有环境是否存在类似隐患；

4. 改变

（1）配置代码必须遵循蓝绿发布原则，上线前测试环境确认没有问题；

（2）备份的重要性和检查机制的建立；

（3）操作步骤命令或基于工具的，而不是模棱两可的文字描述；

5. 协调

（1）轮换期间，IT运维人员必须保证7*24小时待命，随时响应报警。计算机和网络随时可用，两者缺一不可；

（2）做好值班期间的故障处理和日常工作进度记录，故障用于后续分析，工作进度用于将未处理的事务转交下一周期值班人员跟进；

（3）在值班过程中出现了棘手的故障，不能简单地交接下一个值班人员。下班前需根据实际情况确认是否有值班人员办理；

（4）要定期组织轮值人员，了解轮值期间发现的故障和问题。

上海希尼亚偌数十年专注于一站式IT外包业务、IT系统集成服务、IT运维管理服务。