Level 3 技术人员的低级失误:空字段,酿成美国史上最严重故障

2018 年 3 月 20 日 云头条

2016年10月4日,Level 3网络上的电话服务在美国全境瘫痪了近一个半小时。之后不久Level 3承诺出现了“配置错误”,但基本上没公开表示。该公司向客户作了较具体的解释,透露是Level 3的一名技术人员犯了低级错误。联邦通信委员会(FCC)近日刚公布了具体经过。

昨天,FCC的公共安全和国土安全局公布了关于Level 3那次故障的报告。该局负责管理网络故障报告系统(NORS),并对服务故障展开调查。其对那次错误的总结表明了根源:



“Level 3的定期网络维护工作包括每天更改网络一次或两次;作为这项工作的一部分,那名技术人员对Level 3的网络管理软件进行了更改,这套软件管理软交换机和网关。具体来说,该技术人员在Level 3由供应商提供的网络管理软件中进行常规的反欺诈操作时发生了故障。反欺诈操作旨在阻止来自并非Level 3网络本身的电话号码的呼叫,这些电话号码涉嫌与恶意活动有关。该技术人员将通常含有目标电话号码的那个字段留空了,没有填写。结果网络管理软件将空字段解释为‘通配符’,这意味着软件将空字段理解为阻止所有呼叫的指令,而不是理解为空条目。这导致交换机阻止了来自Level 3非本地电话号码数据库中的每个号码的呼叫。”


报告没有表明提供网络管理软件的那家供应商的身份。思科是为Level 3提供网络管理系统的一家供应商:



FCC的报告声称,Level 3在事后四分钟之内就意识到了问题。然而,这个问题却很难诊断,因为Level 3上下没有人意识到将那一个字段留空造成的后果,该公司的所有人之前也没有见过系统当时的异常状况,以为一切正常。


这次故障影响了大约2940万互联VoIP用户和大约230万无线用户。未完成通话的呼叫总数超过1.11亿人次。FCC声称:“这起全国性故障是有史以来NORS报告的最严重故障。”


FCC报告称,Level 3随后采取了相应措施,防止这个问题再次发生――FCC特别指出,这些措施与通信安全、可靠性和互操作性委员会在五年前采用的最佳实践相一致。


Level 3网络中断发生在10月4日。说来也巧,10月21日,美国遭到了有史以来最严重的互联网中断事件,许多知名网站当时几乎陷于停顿,长达数小时之久,东海岸地区尤为严重,不过其他地方也受到了影响。事后查明原因是一系列分布式拒绝服务攻击(DDoS),全部是针对DNS服务提供商Dyn发动的,在那之前从未发生过如此大规模的攻击。


一些人立马指责Level 3也是造成那次互联网中断的罪魁祸首。实际上,这家公司与Dyn遭到的攻击毫无半点关系,但这样的无端指控确实清楚地表明了Level 3的声誉到底受到了多大的损害。


但是后来,Level 3自己也不争气,没有帮助扭转形象。大概一年后,2017年11月7日,Level 3又一次发生了故障,这一回是回程传输(backhaul)系统出岔子,导致康卡斯特、Charter、考克斯通信公司和Verizon等其他服务提供商的广大客户的服务中断。


CenturyLink在2016年底收购了Level 3,也算一了百了。


登录查看更多
0

相关内容

AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
已删除
将门创投
9+阅读 · 2018年12月19日
排查中国千人计划学者,美对华科技限制再次升级
算法与数学之美
6+阅读 · 2018年9月19日
英国情报工作浅析
计算机与网络安全
22+阅读 · 2018年7月27日
噩耗再次传来!华为,挺住!
FinTech前哨
4+阅读 · 2018年2月4日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
5+阅读 · 2019年4月8日
VIP会员
Top
微信扫码咨询专知VIP会员