运维工程师是担任保护并保证整个效劳的高可用性,一起也是在不断优化体系架构、进步布置效率、优化资源利用率进步整体的投入产出比,运维工程师面对的最大应战是大规划集群的办理问题,怎么办理好N台效劳器上的效劳,一起保证效劳的高可用性,是运维工程师面对的最大应战。
成为一个合格的运维工程师难吗?
在一些规划较大的公司就比方Google、FaceBook、百度、阿里巴巴、腾讯等大型公司,运维工程师和体系办理员是有一定的差异:
体系办理员:首要担任机房网络、效劳器等硬件根底设施的运转和保护。
运维工程师:首要担任办理并保护在运转在效劳器集群上的软件效劳。
在软件产品的整个生命周期中运维工程师都需求适时地参与并发挥不同得效果,因而运维工程师的作业内容和方向非常多:
事情办理:目标是在效劳呈现异常时尽可能快速的康复效劳,然后保证效劳的可用性;一起深化剖析毛病产生的原因,推动并修复效劳存在的问题,一起规划并开发相关的预案以保证效劳呈现毛病时可以高效的止损。在这方面首要作业内容有:
问题发现:规划并开发高效的监控渠道和告警渠道,使用机器学习、大数据剖析等方法对体系中的很多监控数据进行汇总剖析,以期在体系呈现异常的时分可以快速的发现问题和判别毛病的影响。
问题处理:规划并开发高效的问题处理渠道和东西,在体系呈现异常的时分可以快速/主动决议计划并触发相关止损预案,快速康复效劳。
问题盯梢:经过剖析问题发作时体系的各种体现(日志、改变、监控)断定问题发作的根本原因,拟定并开发预案东西。
改变办理:以可控的方法,尽可能高效的完结产品功能的迭代的改变作业。在这方面运首要作业内容有:
装备办理:经过装备办理渠道(自研、开源)办理效劳涉及到的多个模块、多个版别的联系以及装备的准确性。
发布办理:经过构建主动化的渠道保证每一次版别改变可以安全可控地发布到出产环境。
容量办理:在效劳运转保护阶段,为了保证效劳架构布置的合理性一起把握效劳整体的冗余,需求不断评价体系的承载才能,并不断优化之。在这方面首要作业内容有:
容量评价:经过技术手段模拟实际的用户恳求,测验整个体系所能承当的最大吞吐;经过树立容量评价模型剖析压力测验过程中的数据以评价整个效劳的容量。
容量优化:根据容量评价数据,判别体系的瓶颈并供给容量优化的解决方案。比方经过调整体系参数、优化效劳布置架构等方法来高效的进步体系容量。
架构优化:为了支持产品的不断迭代,需求不断的进行架构优化调整。以保证整个产品可以在功能不断丰富和杂乱的条件下,一起坚持高可用性。
作为一个
运维工程师培训后的人员来说,他们都需求具有什么样的才能呢,一般对他们的才能要求是什么?
一般他们所要具有的基本技术:
通晓shell/Python/Perl等1至2种编程言语
熟练把握常用数据结构和算法,并能灵活运用
了解网络根底知识
深化了解Linux操作体系
加分技术:
了解开源的监控渠道东西,比方:Ganglia、Nagios等
熟练把握Shell脚本了解Awk、Sed等根底东西
了解分布式核算或者存储体系,比方Hadoop/Hbase/Storm等
了解机器学习原理能付诸实践者更佳
了解TCP/IP、HTTP等网络协议,通晓socket网络编程
阅读推荐:
官网主页(
www.runtimewh.com)