昨日晚间到凌晨DNSPod出现问题,遭到大量用户在微博、朋友圈吐糟。恰巧昨天是腾讯 20 岁生日,因为这事儿,有点儿扫兴,有人故意而为之?
以下为腾讯云对此次事件的技术复盘,供各位参考:
关于11月9日DNSPod域名解析失败的技术复盘
11月9日21:46至11月10日00:06期间, DNSPod出现云解析服务异常,导致用户域名解析失败, 给用户业务造成比较大的影响,对此我们表示诚挚的歉意。同时, 我们对本次故障的整个过程进行了深入的技术复盘。
故障过程:
21:46 平台监控到有部分服务器出现Ping不可达告警,技术人员立即上线排查
22:25 经过排查,确认部分权威服务器外网不通,上联设备运行正常,决定尝试重启机器恢复服务。
22:37 发现重启后无法提供服务,怀疑请求流量有恶意包,并开始抓包分析,同步开始扩容。
23:07 重启机器并扩容完毕后,服务陆续恢复
23:47 监控显示NS解析服务不稳定,分析确认有大量恶意请求包,技术人员立即对异常流量隔离。
23:54 技术人员开启对异常流量全局封堵
00:06 异常机器正常上线,线上业务恢复
故障原因:
部分基于DPDK的NS服务器集群被大量恶意请求包攻击,导致部分域名解析服务异常, 技术人员通过紧急封堵后恢复。
改进措施:
经过分析,我们从以下四个方面加强和改进:
1、对本次攻击请求包模型加入特征库,并对这类攻击自动处理(已完成)
2、增加非DPDK服务比重,提升服务可靠性(已完成)
3、安全团队启动溯源行动(已开始)
4、对关键服务更新监控策略,一旦发现异常流量将自动执行隔离封堵策略 (已开始)
iT行业社群欢迎加入,群主微信:aclood(备注任职单位+职位,否则不予通过)