BGP超级失误:Verizon 搞垮 Cloudflare 和 AWS 等巨头,导致“连锁灾难性故障”

2019 年 6 月 25 日 云头条

“如果某家小型提供商称他们拥有互联网,通常你会把它过滤掉。”

 

Verizon在错误接受了美国宾夕法尼亚州一家小型ISP(互联网服务提供商)的网络错误配置后,今天早上害得互联网的众多系统如同掉入黑洞,导致Cloudflare、Facebook、AWS及其他公司纷纷遭遇故障。


AWS通告


本该通过互联网上一些大公司传输的互联网流量却意外通过总部位于匹兹堡的一家钢铁巨头改道传输,这种情况整整持续了近三个小时。



这一切起源于区域性的美国ISP DQE Communications错误地公告了20000多个IP地址前缀(约占整个互联网的2%)的新互联网路由:这则公告告知庞大互联网的骨干网设备,通过DQE及其一个客户:钢铁巨擘Allegheny Technologies传输无数网民的流量。让人匪夷所思的是,互联网上备受信赖的知名品牌Verizon接受了这个重定向,并传递到全世界。之所以出现这种情况,是因为Allegheny也是Verizon的客户:它还向Verizon公告了路由更改,Verizon进一步传播了路由更改。


因此,全球各地的系统都自动更新了,本该通向Facebook和Cloudflare及其他公司的连接最后都通过DQE和Allegheny,DQE和Allegheny因不堪重负而倒垮,导致流量消失于黑洞中。


显示路由泄露的示意图(图片来源:Cloudflare)


该图显示了网络路由如何通过DQE和Allegheny错误地向Verizon公告。


互联网工程师们指责问题出在一款自动网络软件上:Noction开发的BGP优化器,DQE使用该软件改善网络连接。尽管每天都会发生这种错误配置,但是像Verizon这样庞大的美国电信公司居然会传递这么多错误的路由信息?6?7?6?7,还是让人感到颇为沮丧,甚至难以置信。突然的错误更改应该能够被过滤系统发现,根本不被接受。


NTT Communications公司的互联网架构师Job Snijders今天在网络运营商邮件列表上的备忘录中抱怨:“虽然很容易指明BGP优化器是根本原因,但我确实认为我们现在已看到流程和技术方面都出现了连锁灾难性故障。”


Cloudflare的首席技术官的谈话中重申了这个担忧。他称“最糟糕的情况是,我们约10%的流量被转移到了Verizon。”



Graham-Cumming称“美国Verizon的一个客户实际上开始公告:互联网的一大部分属于他们。”他补充道:“不知出于什么原因,Verizon决定将此信息向全球其他地方广而告之。”


他还抨击Verizon没有将这一更改过滤掉:他提到BGP泄露和错误配置时说:“这种情况频频发生,但是如果某家小型提供商称他们拥有互联网,像Verizon这样的大型ISP通常会把它过滤掉。”


是时候解决这个问题了


虽然由于全球网络的基本信任方法(你完全信任他人不提供错误的信息)互联网工程师多年来一直在处理这些故障和问题,近年来BGP泄露已经从令人心烦的问题变成了技术人员认为需要解决的重大漏洞。


犯罪分子和政府层面的间谍已经意识到可以利用这种泄露获取大量的互联网流量:大量数据随后可用于各种可疑的用途,包括监视、破坏和金融盗窃。


不过还是有一些技术修复方法。


一个名为“相互约定的路由安全规范”(MANRS)的重要行业组织有四个主要建议来解决这个问题:两个技术层面的建议和两个文化层面的建议。


两种技术层面的方法是过滤和反欺骗,它们基本上检查来自其他网络运营商的公告,查看它们是否合法,删除任何不合理的公告;文化层面的方法是协调和全球验证,鼓励运营商彼此加强交流、齐心协力,标记并删除任何可疑的BGP更改。


Verizon不是MANRS的成员。


Cloudflare的Graham-Cumming 问道:“Verizon要回答的问题是,为什么不把来自这个小网络的路由过滤掉?”


Verizon就今天的BGP故障称:“今天早些时候,一些[Verizon]FiOS客户的互联网服务出现了间歇性中断。我们的工程师在美国东部时间早上9点左右解决了这个问题。”我们认为今天遇到“间歇性中断”的可不仅仅是“FiOS客户”。


与此同时,DQE的发言人称:今天早些时候,DQE收到警告:第三方ISP无意中将来自我们的一个共同客户的路由向下游传播,结果影响了Cloudflare的服务。 我们立即分析了问题,并调整了我们的路由策略,改善了Cloudflare的情况,让他们得以恢复正常运行。DQE持续监控其网络流量,并对出现的任何事件迅速做出响应,以确保为客户提供最长的正常运行时间。


相关阅读:

一次BGP事件:通过中国电信传输欧洲移动流量持续 2 小时

谷歌的一名工程师搞砸了BGP通告,导致日本互联网陷入瘫痪

AWS 因外部服务商出了问题,导致部分客户互联故障

因路由泄露 Cloudflare 瘫痪了:影响无数网站运行


登录查看更多
1

相关内容

边界网关协议(Border Gateway Protocol, BGP)
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
36+阅读 · 2020年2月27日
ofo商业模式破产
1号机器人网
6+阅读 · 2019年1月29日
华为和其“公关危机”下的5G发布会
1号机器人网
7+阅读 · 2019年1月27日
排查中国千人计划学者,美对华科技限制再次升级
算法与数学之美
6+阅读 · 2018年9月19日
2017企业阵亡最全名单公布
小饭桌
6+阅读 · 2018年2月28日
噩耗再次传来!华为,挺住!
FinTech前哨
4+阅读 · 2018年2月4日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关VIP内容
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
36+阅读 · 2020年2月27日
相关资讯
ofo商业模式破产
1号机器人网
6+阅读 · 2019年1月29日
华为和其“公关危机”下的5G发布会
1号机器人网
7+阅读 · 2019年1月27日
排查中国千人计划学者,美对华科技限制再次升级
算法与数学之美
6+阅读 · 2018年9月19日
2017企业阵亡最全名单公布
小饭桌
6+阅读 · 2018年2月28日
噩耗再次传来!华为,挺住!
FinTech前哨
4+阅读 · 2018年2月4日
Top
微信扫码咨询专知VIP会员