维萨欧洲首席执行官表示,由于设备故障,试图进行的交易中10%失败。
维萨(Visa)表示,其两个数据中心中有一个遇到了“很罕见”的网络交换机局部故障,引发了本月初的混乱局面,结果导致欧洲数百万笔交易被拒绝。
那次故障在6月1日星期五持续了大约10个小时,在欧洲酒吧消费者当中引发了恐慌,很显然,5120万笔交易中大约10%被拒绝。
维萨欧洲首席执行官夏洛特•霍格(Charlotte Hogg)在上周晚些时候致英国财政委员会的信函(见文末)中解释了这个错误,并就这起故障发表了“坦诚的”道歉。英国财政委员会之前要求该公司就此事作出解释。
她说:“我们对于自己在支持英国金融稳定方面扮演的重要角色很重视。任何时候影响广大消费者的支付处理受扰乱都是不可接受的,更不用说在繁忙的星期五下午了。”
故障细节
这封信将问题归咎于一只网络交换机内部一个“很罕见”的部件故障,导致备用交换机无法在维萨在英国的两个数据中心中的一个接过重任。我们获悉,这干扰了这两个中心相互沟通的机制,导致消息积压如山,结果系统不堪重负。
大概过了10个小时服务才恢复正常,影响了大约170万名英国持卡人,在英国发行的卡上进行的交易当中约9%未能成功处理。
维萨已开展了多次审查,还正在将欧洲系统迁移到一套更具弹性的全球处理系统:VisaNet。
更详细的内情
霍格解释道,维萨在英国的两个数据中心都在不断处理交易;万一一个中心完全失效或不堪重负,另一个就能处理维萨所有的欧洲交易。为了做到这一点,两个数据必须不断同步,以便交易可以立即路由到任何一个站点加以处理。两者通过交换消息来保持同步。
霍格补充道,有好多备用系统,此外还有两个核心网络交换机用于引导庞大的交易流。然而,主数据中心那个上述的交换机设备故障使得备用交换机无法正常启动,结果阻止了两个站点无法协同工作。
霍格说:“在这种情况下,我们主数据中心所使用的那只交换机遇到了一个很罕见的局部故障,从而影响了辅助站点,使得它无法自动处理所有交易,本该可以自动处理的。”
“因此,找出并隔离主数据中心那个系统所花的时间比平常长得多;在此期间,主数据中心那个失效系统继续尝试与辅助站点同步消息。这在辅助数据中心造成了消息积压的局面,这反过来降低了该站点处理入站交易的能力。”
具体来说,她特别指出:
我们主数据中心中一只交换机里面的部件出现了很罕见的局部故障,导致备用交换机无法启动。
这家支付处理公司不得不采取一系列措施,完全关闭那只故障交换机,隔离主数据中心,并终止消息积压现象,包括关闭主站点的所有应用软件,并通过人工手段和自动手段来清理辅助站点处的消息积压。
然而,直到当地时间19:10(14:35注意到故障),才完全停用导致主数据中心交易失败的系统,此时第二个数据中心已开始正常处理几乎所有的交易。星期六早上00:45,这两个数据中心都已恢复正常服务。
9%的失败率
在此期间,英国出现了支付受到扰乱的两段高峰期,平均35%的交易未能处理:一段高峰期是15:05至15:15的10分钟,另一段是17:40至18:30的50分钟。在英国的其他所有时间,失败率为7%。
该公司报告,总的来说,在1600万张英国发行的卡上执行了2760万笔维萨交易,其中240万笔(9%)交易失败,略低于欧洲10%的失败率。
然而,维萨补充道,许多人在重新进行交易后成功了;它表示,考虑到这一点,未能处理的总体交易率下降了大约一半。
霍格表示,这家支付巨头正在与那家交换机硬件制造商合作,搞清楚设备出现故障的原因,并正在采取措施,以便能够在将来更自动化、更及时地隔离和移除出现故障的部件。
此外,霍格特别指出,维萨正在将其欧洲交易处理迁移到全球系统VisaNet上,预计这个过程在2018年底前完成。
她表示,VisaNet有一套不同的技术架构,采用多个数据中心,容量和规模方面“高出一大截”,而且在检测局部故障并及时恢复方面更具有弹性。
预料到下一个显然的问题时,霍格补充说:“值得一提的是,发生在6月1日的事件与这次迁移毫无关系,这次迁移自今年2月以来就一直在进行之中,而且进展顺利,遵循一套完备的迁移方案。”
维萨还请国际会计师事务所安永(EY)对这起事件进行审查,并向受影响的人员提供赔偿。
英国财政委员会表示它对维萨的回复感到满意,但要求查看审查结果。
金融 IT 行业交流群欢迎加入,群主微信:aclood(备注任职单位+职位,否则不予通过)