当企业随着业务的扩展,使用的资源越来越多的时候,如何高效的去管理一个或数个庞大的资源集群,使运维工作变得更加容易简单,灵活?
今天的内容主要从云资源自动化管理工具谈起,通过工具来体现云计算在企业级解决方案中相对于传统运维的巨大优势,内容包括:云资源分组归类,隔离与授权,如何使用高效的运维工具(监控告警,自动伸缩)等等。
以下是分享正文:
大家好,我是金信润天工程师,负责控制台、通知系统、告警系统等功能的研发。今天和大家分享的话题是《运维工程所的逆袭——云资源管理》
传统运维中的那些坑
不知道群里各位有没有之前接触过传统 IT 运维的工作?运维工程师,其实,在以前工程师的体系里是相对比较苦逼的工种。不止是因为薪水比别的工程师低一点,还体现在:
运维工程师操作的是线上系统,平时压力特别大,需要 7x24 小时维护系统正常运行。
平时老板和领导眼里存在感比较低,只有哪天系统挂了,老板才会突然想起运维工程师。
我以前有一些朋友做运维工作,其中有一个特别好的朋友在新浪做过四、五年运维工程师,现在正在自己创业。我们交流时,他说现在做运维和以前做运维完全是两个时代的事情,创业也变得更简单了。
他具体说了这几个方面:
一是相对容易融资,只要东西做得靠谱一点。
二是现在创业主要是轻资产的模式,最大的资本投入是人,只要有人就可以。(甚至不需要租办公室,办公室、办公设备可以由第三方创业服务商提供租赁,财务,法务,人力等工作也有专业的外包团队来解决。)
三是 IT 运维模式的改变(从传统运维到云计算,极大降低成本),也是今天的话题。
现在创业团队中的运维不需要像以前一样,在做一个产品之前,就要先买几百台服务器。100 台服务器,这个数量对大公司来说不是特别大的数字,但是对于一个初创企业来说,几百万的投入决策也许就决定着团队的生死问题。
而且,服务器买来以后还需要进行繁琐的配置。(我的朋友经常自己编译新版本的 FreeBSD,想象一下,把 100 台服务器放在面前,挨个装操作系统。100 台服务器,装操作系统就要一个下午或者更长的时间。)装完后把这 100 台服务器放在机房里,挨个塞到机架上,插上网线、电源线、硬盘,把机器跑起来。
是不是很辛苦?
但是即使是这样,也没有结束,当产品真正上线后需要做的事情更多。比如 A 部门做了一个产品,它需要一些服务器,给他分配了 1-10 号服务器。过一段时间,B 部门也需要服务器部署产品,给 B 部门分配 11-20 号服务器,这些都得记录下来(很多公司是拿个小本子或者 Excel 文件记录)。
但是,当公司的业务规模随着产品的发展越来越大,开发人员越来越多,产品线越来越长,甚至运维团队本身也有老人离职,有新员工入职,资源的管理会变得异常复杂,特别艰难。
最后可能会出现什么情况呢?
第一,每个部门使用的资源控制和管理变得很困难(复杂的申请和交付流程);
第二,资源混用, 有时候同一台服务器可能被多个团队使用,上面跑不同的业务。到最后具体每台服务器,上面跑了什么业务,都无法清楚的记录。
想象下,假如您的公司出现一台设备,但是你不知道是做什么用途的,该怎么办?
正常情况,肯定会跑到公司沟通群里喊:“谁在使用这个设备?”
但是当公司很大的时候,
运维工程师肯定没法这么做(如果
运维工程师自己都不知道某个机架上的某个服务器跑什么业务,业务部门更不知道了,对吧?)所以,传统的IT运维工作其实是相当辛苦的。
阅读推荐:你知道嘛?家有运维工程师男友原来这么赞!