文章来源:云头条
故障影响了依赖CenturyLink传输服务的通信服务提供商、企业客户和消费者,该传输服务将来自不同提供商的流量路由传输到全国各地。故障导致电话和宽带服务(包括911电话呼叫)大范围中断。39个州多达2200万客户受影响,其中包括29个州的约1700万客户,他们无法可靠地访问911。至少886人次的911电话未接通。
在此事件中,畸形数据包包括通常生成的有效网络管理数据包的片段。每个畸形数据包都有导致故障的四个属性:
广播目标地址,这意味着数据包被指令发往所有联网的设备;
有效的头部和有效的校验和;
没有到期失效时间,这意味着数据包不会因很早前创建而被丢弃;
大于64字节的大小。
每个联网的节点继续通过专有管理信道将畸形数据包转播到与之连接的每个节点,因为数据包看起来有效,又没有到期失效时间。这个过程无限重复。
畸形数据包的不断传输导致没完没了的反馈循环,因而消耗了受影响节点的处理能力,这进而破坏了节点保持内部同步的能力。具体来说,如果指令发送到一对线路模块,但只有一个线路模块实际接收到信息,那么发送到输出线路模块的指令就失去同步。没有这种内部同步,节点就会丧失路由传输数据的能力。由于这些节点失效,结果CenturyLink网络出现多次故障。
该服务提供商和供应商还为网络管理事件制定了网络监控计划,以更快地检测类似事件。目前,CenturyLink正在更新其节点的以太网管制器(policer),以减小将来传输畸形数据包的机会。改进的以太网管制器可迅速识别并终止无效数据包,防止传播到网络中。预计这项工作预将于2019年秋季完成。