武汉金信润天
免费服务热线:13260580922
微信在线咨询:13260580922
武汉金信润天:027-87538126
扫一扫
关注我们
成为一个合格的运维工程师难吗?
时间:2018-09-13 14:43    浏览次数:     发布者:runtimewh    来源:未知    
0
  运维工程师是负责维护并确保整个服务的高可用性,同时也是在不断优化系统架构、提升部署效率、优化资源利用率提高整体的投入产出比,运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好N台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。

  成为一个合格的运维工程师难吗?

  在一些规模较大的公司就比如Google、FaceBook、百度、阿里巴巴、腾讯等大型公司,运维工程师和系统管理员是有一定的区别:

  系统管理员:主要负责机房网络、服务器等硬件基础设施的运行和维护。

  运维工程师:主要负责管理并维护在运行在服务器集群上的软件服务。

  在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同得作用,因此运维工程师的工作内容和方向非常多:

  事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。在这方面主要工作内容有:

  问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。

  问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。

  问题跟踪:通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具。

  变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作。在这方面运主要工作内容有:

  配置管理:通过配置管理平台(自研、开源)管理服务涉及到的多个模块、多个版本的关系以及配置的准确性。

  发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。

  容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化之。在这方面主要工作内容有:

  容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。

  容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案。比如通过调整系统参数、优化服务部署架构等方法来高效的提升系统容量。

  架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整。以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。

  作为一个运维工程师来说,他们都需要具备什么样的能力呢,一般对他们的能力要求是什么?

  一般他们所要具备的基本技能:

  精通shell/Python/Perl等1至2种编程语言

  熟练掌握常用数据结构和算法,并能灵活运用

  熟悉网络基础知识

  深入理解Linux操作系统

  加分技能:

  熟悉开源的监控平台工具,比如:Ganglia、Nagios等

  熟练掌握Shell脚本熟悉Awk、Sed等基础工具

  熟悉分布式计算或者存储系统,比如Hadoop/Hbase/Storm等

  熟悉机器学习原理能付诸实践者更佳

  熟悉TCP/IP、HTTP等网络协议,精通socket网络编程




阅读推荐:培训云计算架构师需要学习的五件事
相关推荐
武汉分公司地址:湖北省武汉市洪山区虎泉街凯乐桂园A座9层(虎泉地铁站A出口右手边)
咨询报名电话:18672341218(微信同号)   武汉金信润天:027-87538126   
教学就业监督电话:027-87538125    网站地图   备案号:鄂ICP备15010789号-2
姓名
手机
电话咨询 在线咨询 QQ客服