武汉金信润天
免费服务热线:13260580922
微信在线咨询:13260580922
武汉金信润天:027-87538126
北京金信润天:010-88134881
扫一扫
关注我们
金信润天运维工程师 | 百亿级外网访问质量保障
时间:2018-09-13 17:36    浏览次数:     发布者:runtimewh    来源:未知    
0
  业务线运维工程师希望外网监控平台能够真实反映用户到百度IDC(Internet Data Center,互联网数据中心,又称机房)间的网络质量,并能够及时快速地发现机房侧故障、骨干网故障以及单省份故障,这里面有几个关键问题:

  1、监控数据反映的是网络质量

  业务线运维工程师关注的是外网质量,因此,需要通过一种探测手段来实时反映网络质量。而探测协议有很多种,比如ICMP、TCP、HTTP,那么哪种协议更适合呢?猎鹰采用了TCP和HTTP来作为探测协议,原因有以下两点:

  首先,网络设备在转发请求时,是根据请求的源IP、源端口、目的IP、目的端口、网络协议这五个信息决定请求的Next Hop所经过的链路或者设备。TCP和HTTP协议有请求端口,而ICMP协议只有源IP、目的IP以及网络协议这三个信息。那么对于一个监测点和一个被监测目标来说,由于TCP和HTTP探测请求的源端口可以不断的变化,因此TCP和HTTP探测方式能够比ICMP探测方式够覆盖更多的链路。

  其次,用户访问百度服务的请求大多数是基于TCP和HTTP方式的,因此,TCP和HTTP方式更接近于用户的访问方式。

  在确定了探测方式之后,需要有探测指标来衡量网络质量的好坏,为了更加真实反映用户到百度服务之间的网络质量,猎鹰将网络连接是否建立成功、连接建立的时延作为衡量网络质量的指标。因此,只要连接建立成功,即使HTTP Code为500,也认为当前网络处于正常状态。


  2、监控数据反映用户到百度IDC的网络访问质量

  为了能够真实反映用户到百度IDC间的网络质量,需要从用户侧向百度的的VIP(Virtual Internet Address,百度多台服务器形成的一个虚机地址)发起探测。因此,猎鹰在全国三大运营商各个省份均部署了监测点,用于执行具体的探测任务。

  3、能够及时快速地发现网络故障

  为了尽可能快地发现网络故障,猎鹰采用了基于数据驱动的网络故障检测模型。已有的故障检测模型大多是固定周期检测模式,比如检测周期是1min,那么检测模型每两次相邻的检测需要间隔1min,这种模式比较适用于流水数据、PV数据的检测。但是对于网络异常检测的场景,实际上每两次相邻的检测并不一定需要间隔1min,看下面这个例子:

  假如Tn周期的检测时间点是10:00:00,按照固定周期检测模式,Tn+1周期的检测时间点则是10:01:00,而实际很有可能在10:00:35的时候就已经收集够了相对充足的探测样本,足够判断出当前是否存在网络异常,那么在10:00:35就可以进行故障检测了,这样能够将故障发现时间提前25秒。

  因此,在基于数据驱动的网络故障检测模型中,我们对固定周期检测模式进行了改进,加入了探测样本数判断,如果提前收集到了足够的探测样本,则提前进行故障检测,尽可能地加快故障发现速度。

  4、能够准确区分网络故障类型

  当出现网络故障时,业务线运维工程师需要知道网络故障的类型,以便于采取对应的止损策略进行止损。我们针对机房侧故障、骨干网故障、单省份故障的表现特点分别设计了三种故障发现策略。

  如上所述,在每个省份部署的采集点,周期性地向百度机房的VIP发起探测请求(HTTP请求和TCP请求),并将探测结果进行上报,然后对探测结果进行故障判定,得到实时的网络质量和状态。




阅读推荐:Linux运维工程师入门须掌握的10个技术点
相关推荐

总公司地址:北京市海淀区阜外亮甲店1号恩济西园产业园15号楼B座303
武汉分公司地址:湖北省武汉市洪山区虎泉街凯乐桂园A座9层(虎泉地铁站A出口右手边)
咨询报名电话:18672341218(微信同号)   武汉金信润天:027-87538126   北京金信润天:010-88134881
教学就业监督电话:027-87538125    网站地图   备案号:鄂ICP备15010789号-2
姓名
手机
电话咨询 在线咨询 QQ客服