阿里巴巴建成全球超大规模数据中心内“RDMA高速网”,以支撑人工智能科学计算

2019 年 3 月 13 日 云栖社区

3月13日,记者了解到,尽管大多数云计算厂商已经在其数据中心内部部署RDMA(Remote Direct Memory Access)网络,但阿里巴巴已经抢先一步:其数据中心集群内的RDMA网络规模居于全球领先地位,目前已有数十个数据中心支持RDMA网络,延时可显著降低90%,最大程度满足人工智能、科学计算等场景需求。


阿里云北京冬奥云数据中心


当用户在阿里云选择高性能云盘ESSD、云原生数据库POLARDB、云超算SCC、机器学习PAI等产品时,均运行在RDMA网络之上。也正因为如此,这些广受欢迎的创新产品背后已经共享了网络的技术红利。


RDMA是目前业内最受欢迎的高性能网络技术,能大大节约数据传输时间,被认为是提高人工智能、超算等效率的关键。数据显示,在未使用RDMA网络时,语音识别训练每次迭代任务时长为650ms至700ms,其中通信时延就占400ms。


为了提高数据传输速度、满足用户需求,亚马逊、微软等主要云厂商都在投入该技术的研发和部署,但鲜有企业实现RDMA在数据中心的大规模应用。


在2016年,阿里巴巴开始投入专项研究,以改造RDMA、提高传输性能。从网卡底层开始设计满足大规模应用的网络,并结合阿里自研交换机实现性能最大化,最终建成全球最大规模数据中心内的“高速网”,使得集群极大地突破了传输速度瓶颈,并将时延显著降低90%。


以2018年天猫双11为例,基于RDMA网络技术的云存储和电商数据库服务器可以从容地应对峰值流量考验。


而上汽集团乘用车也正采用加入高速RDMA互联支持的云超算SCC集群进行模拟仿真,整体提升效率25%。


“RDMA网络已经成为人工智能、科学计算等高性能计算、存储业务的必备技术,我们将继续探索更高带宽的网络技术,未来将部署 100G高速网络,为企业提供稳定、低延时的网络服务。” 阿里巴巴基础设施首席网络架构师蔡德忠向记者表示。


作为全球前三、国内第一的云服务商,阿里云在全球19个地域拥有56个可用区,网络总带宽已达到 PB 级别超大规模,目前正在测试400G 网络的研发,推出的 400G QSFP-DD行业标准已受到全球企业广泛支持。


更多精彩


阿里云开年Hi购季满返活动火热进行中


实时计算最佳实践:基于表格存储和Blink的大数据实时计算

阿里巴巴双11千万级实时监控系统技术揭秘

如果觉得本文还不错,点击好看一下!

登录查看更多
2

相关内容

华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
93+阅读 · 2019年11月13日
5G时代:北京移动业务支撑系统 DevOps 实践
DevOps时代
15+阅读 · 2019年6月13日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
14+阅读 · 2017年5月19日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关资讯
5G时代:北京移动业务支撑系统 DevOps 实践
DevOps时代
15+阅读 · 2019年6月13日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
一篇文章读懂阿里企业级数据库最佳实践
阿里巴巴数据库技术
5+阅读 · 2017年12月20日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
14+阅读 · 2017年5月19日
Top
微信扫码咨询专知VIP会员