互联网运维工作以服务为核心,以稳定、安全、高效为三个基本点,确保公司互联网业务能够7×24小时为用户提供优质服务。
运维人员加强公司互联网业务所依赖的基础设施、基础服务、线上业务的稳定性,进行日常巡查,发现服务中可能存在的隐患,优化整体架构,屏蔽常见的运行故障。接入提高了业务的容灾能力。
通过监控、日志分析等技术手段,及时发现并响应服务故障,减少服务中断时间,使公司互联网业务达到预期的可用性要求,为用户提供持续稳定的服务。
运维人员需要保证公司提供的互联网业务在安全可控的状态下运行,保证公司业务数据和用户隐私数据的安全,同时需要具备抵御能力各种恶意攻击。在保证业务稳定安全的前提下,还要保证业务的高效运作和公司内部的快速产出。运维工作需要对业务的各个方面进行优化。例如优化提升数据库性能、压缩图片以减少带宽占用等,所提供的互联网服务以更少的资源投入带来最大的用户价值和体验。同时,还需要通过各种工具平台提高内部产品发布和交付的效率。提高公司内部与运维相关的工作效率。
操作和维护有许多工作方向。随着业务规模的不断发展,互联网公司越成熟,运维岗位的划分也会越细。目前,很多大型互联网公司只在初创期进行系统运维。随着服务规模和服务质量的要求,他们的工作也逐渐细分。
收集业务需求,预估未来数据中心的发展规模,从骨干网分布、数据中心建筑、互联网接入、网络攻击防御能力、扩容能力、空间预留、外租专线能力等现场服务支持能力。评估数据中心的选择。负责数据中心的建设和现场维护。
设计和规划生产网络架构,包括:数据中心网络架构、传输网络架构、CDN网络架构等,以及网络调优等日常运维工作。
负责服务器测试选型,包括整台服务器及组件的基础测试和业务测试,降低整台服务器的功耗,增加机架部署密度。结合对公司业务的了解,推广新的硬件和新的解决方案,降低业务中服务器的投资规模。负责诊断和定位服务器硬件故障,开发和维护服务器硬件监控和健康检查工具。
记录和管理与运维相关的基本物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等资源信息,制定有效的流程,保证信息的准确性;开放API接口,提供自动化运维数据支持。
掌握负责的服务,服务之间的关系,以及服务所依赖的各种资源。能够发现服务缺陷,及时报告并推进解决。制定服务稳定性指标和准入标准,同时不断完善和优化流程和系统的功能和效率,提高运行质量。完善监控内容,提高报警准确率。当在线服务出现故障时,立即响应,将已知在线故障按流程上报并按计划执行,并组织相关人员共同排除未知故障。
管理各项服务的服务器资产,梳理服务器资源状况、数据中心分布、网络专线和带宽,合理使用服务器资源。根据不同业务的需求,分配不同配置的服务器,保证服务器资源的充分利用。
上海希尼亚偌数十年专注于一站式IT外包业务、IT系统集成服务、IT运维管理服务。