业界 | 英特尔深度学习产品综述:如何占领人工智能市场

2017 年 4 月 23 日 机器之心

机器之心原创

作者:Haojin Yang

参与:Jake Zhao、侯韵楚、黄小天


2017 年 2 月 9 日,机器之心技术分析师应邀参加了在 SAP 创新中心召开的英特尔创新研讨会。英特尔数据中心组(Data Center Group , DCG)的成员对目前深度学习及其人工智能产品的发展做了有关介绍。根据本次研讨会的内容,我们可以预测 CPU 硬件生产商(如英特尔)在下一场计算浪潮来袭时的发展趋势或战略,尤其是人工智能的相关方面。


简介


2017 年第一季度,英伟达数据中心收入同比增长 63%,总体收入也得到增长。这一显著增长主要归功于大型 IT 公司,如谷歌和亚马逊主要基于英伟达 GPU 来加速其人工智能云产品的研发。相较而言,在数据中心领域处于霸主地位的英特尔仅增长了 9%。如此悬殊的差距表明,市场中有越来越多的公司正采用深度学习技术;但英特尔已经增加了在深度学习方面的投入与发展力度。本文将就英特尔近期的深度学习产品表达一些见解。


英特尔的人工智能产品


英特尔加强了人工智能硬、软件领域的开发工作。英特尔已在数据中心领域发布了 Xeon 和 Xeon Phi 处理器用于机器学习及其他高性能计算(HPC)应用的通用性案例。为了满足对人工智能日益增长的需求,英特尔还推出了两个用于深入学习模型训练和高效推理的优化产品:


  • 训练:英特尔 Xeon 处理器 + 英特尔深度学习引擎「Lake Crest」,「Lake Crest」具有同类之最的神经网络性能,并能提供前所未有的高带宽互连的计算密度。

  • 推理:英特尔 Xeon 处理器 + FPGA(ARRIA 10)。FPGA 引擎可定制和编程,能提供带有用于机器学习推理的更高 perf/w 的低延迟以及灵活的精度。该解决方案专为机器学习应用的高效推理和实时预过滤而设计。


下述章节将提供有关 Lake Crest 、英特尔 FPGA 解决方案 ARRIA 10 以及 Xeon Phi 深度学习模型训练评估结果的更多细节。


Lake Crest


英特尔深度学习引擎「Lake Crest」是一款新型芯片产品,可实现神经网络计算的硬件级优化。与可编程的 FPGA 相比,硬件网络的优势主要在于:像 Lake Crest 这样的芯片在运行时能与代码相适应,并且网络也会在硬件层面进行更新。Lake Crest 具有基于架构的张量,其内存层次结构具有以下特点:高维度(> 2)张量是默认的数据类型;没有应用缓存机制,由编译器分配内存。这些张量可读为转置或定期。它始终具有 ECC 保护,且应用比 DDR4 快 12 倍的 HBM2 RAM。


Lake Crest 的另一项重要创新是数据传输,并拥有高带宽互连——具有 6 个用于 3D 环面互连的双向链接,这些链接比 PCIe 快 20 倍。Lake Crest 的 12 个计算单元直接连接到所有其他计算单元,其吞吐率高达每秒 100 千兆字节。


Lake Crest 支持用于深度模型的 16 个 FlexPoint,且聚焦于优化占据大部分神经网络执行时间的 Mat-Mult 和 Convolution。它还支持如(A ^ 2 * 4B)+ C 这样复杂的 GEMM 函数、自动矩阵阻塞以及部分乘积相加等。


在 Lake Crest 中设计的具体数据类型如图 1 所示。


图 1: Lake Crest 支持的数据类型(图片来自英特尔)。


FlexPoint 引擎能够实现基于 12x100Gbps interc 和 32 GB HDM2 RAM 的 50TOP。2017 年底将推出基于深度学习平台的 Lake Crest,而 2018 年底将推出下一代英特尔深度学习芯片「Spring Crest」,其能使用 8g winograd 实现 80-90 的 TOP。


Arria 10 FPGA


Arria 10 是英特尔目前用于机器学习的最新一代 FPGA,它的计算能力可以单精度达到 1.5 TF,Int16 达到 3 个 TOP,Int8 达到 6 个 TOP。2017 年末将计划发布下一代 FPGA——「Stratix 10」,它的计算能力将更强大,单精度高达 9 TF,而 Int16 / 8 则会高达 18/36 TOP。


英特尔为安装 Arria 10 FPGA 模块提供了两种选择:作为单独的 PCIe 组件进行安装,即将来的「离散」版本;另一方面,它可被集成到在内部与处理器直接相连的 Xeon 处理器包中,并在外部与 FPGA 模块之间直接提供一个连接管道,从而实现灵活的数据访问,这便是「集成」版本。


表 1 和 2 显示了使用 Arria 10 FPGA 组件的 Xeon 处理器的吞吐量以及能耗。(所有统计数据收集自英特尔的公开资料。)


表 1:使用 Arria 10 离散版本的英特尔 Xeon


表 2:分类任务中「集成」版本的吞吐量。表中的结果基于以 224x224x3 作为输入、1000x1 为输出的 AlexNet 分类。


Xeon Phi Knights Mill


Xeon Phi 处理器被定义为高性能的通用机器学习应用程序。2017 年最新发布的是使用 Groveport 平台的「Knights Landing」(KNL)。下一代芯片「Knights Mill」将在年末推出,它将具有以下计算功能:单精度达到 13.8TF,VNNI 中达到 27.6TOP。VNNI 通过使用 Int16 输入来支持 2 倍的每秒浮点计算,并且使用 Int32 输出可以实现与单精度类似的精度。


图 2 显示了使用 MxNet 框架对各种深度模型进行推理速度测试的一些基准结果。与开箱即用的性能相比,它经过硬件级别的优化后,可在 2S Intel Xeon 处理器 E5 2699v4 上实现高达 123 倍的提速。


图 2:对已优化的英特尔微处理器进行推理测试(本图来自英特尔)。


英特尔推出 Knight Mill&Groveport 平台来优化训练性能,该平台在速度、内存以及一致性方面做了整体改进。它具有适于深度学习训练负荷的高度分布式多节点扩展,能实现高于 KNL 2.5 倍的单精度性能提升。分布式多节点扩展可以越过多达 72 个内核。它具有集成式 16 GB MC DRAM 的高内存带宽,且具有用于大量人工智能使用案例的 384GB 的 6 通道 DDR4 存储能力。本地支持通用的英特尔 Xeon 编程,且该框架已针对开源机器学习框架的行业标准进行了优化,其单精度峰值性能可高达 13.8TF。


据英特尔报告称,与在 2S 英特尔 Xeon 处理器 E5 2699 v4 中开箱即用的性能相比,它能以优化为基础,实现高达 340 倍的性能提升用于训练 TensorFlow 中的 VGG 模型。此外,如图 3 所示,它可以在英特尔 Xeon Phi 处理器 7250 上实现高达 273 倍的累积加速来训练 VGG 模型。


图 3:已优化的英特尔微处理器的累积加速(本图来自 Intel)。


图 4 显示了使用英特尔 Omni Path Fabric 的 GoogleNet v1 扩展至英特尔 Xeon Phi 处理器 7250 中多达 32 个节点集群的训练时间,图中表明,最大扩展效率高达 97%。


图 4:扩展训练时间。X 轴:节点集群的数量,Y 轴:小时数(本图来自英特尔)。


软件及工具


软件也是英特尔人工智能计算基础的重要组成部分。图 5 显示了英特尔在深度学习/机器学习环境中所开发的软件库以及工具。


图 5:英特尔的深度学习软件及工具(本图来自英特尔)。


很明显,英特尔正试图为深度学习/人工智能产品构建完整的计算基础。它的深度学习平台不仅支持所有主流的开源深度学习库,而且专为快速充电的深度神经网络提供了更优的数学内核库 MKL-DNN。我们把这样的库看作计算原语(computational primitive),但英特尔的机器学习扩展库作为通信原语使用。


最近英特尔的研究团队在 FPGA'17 会议上发表了一篇名为「FPGA 在下一代深度神经网络的加速中能否胜过 GPU」的论文,该论文对基于英特尔 FPGA 产品 Arria 10 和 Stratix 10 加速深度学习模型的性能提升进行了深入实验,并相交于目前英伟达的 TitanX Pascal GPU 做出了评估。结果表明,用于深度学习时,英特尔的 FPGA 解决方案与最先进的 GPU 处理器相比更具竞争力。



本文为机器之心原创,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:editor@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com


登录查看更多
0

相关内容

英特尔公司是世界上最大的半导体公司,也是第一家推出x86架构处理器的公司,总部位于美国加利福尼亚州圣克拉拉。由罗伯特·诺伊斯、高登·摩尔、安迪·葛洛夫,以“集成电子”之名在1968年7月18日共同创办公司,将高级芯片设计能力与领导业界的制造能力结合在一起。 维基百科
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
专知会员服务
80+阅读 · 2020年6月20日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
【综述】7篇非常简洁近期深度学习综述论文
专知会员服务
74+阅读 · 2019年12月31日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
93+阅读 · 2019年11月13日
百度研究院|2020年10大人工智能科技趋势
专知
7+阅读 · 2019年12月24日
2018年边缘计算行业研究报告
行业研究报告
11+阅读 · 2019年4月15日
硬件加速神经网络综述
计算机研究与发展
25+阅读 · 2019年2月1日
IDC与百度联合发报告:预测2019年人工智能十大趋势
全球人工智能
3+阅读 · 2018年12月21日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
人工智能产业链,是时候梳理一下了!
物联网智库
3+阅读 · 2018年1月19日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
Image Segmentation Using Deep Learning: A Survey
Arxiv
44+阅读 · 2020年1月15日
VIP会员
相关VIP内容
相关资讯
百度研究院|2020年10大人工智能科技趋势
专知
7+阅读 · 2019年12月24日
2018年边缘计算行业研究报告
行业研究报告
11+阅读 · 2019年4月15日
硬件加速神经网络综述
计算机研究与发展
25+阅读 · 2019年2月1日
IDC与百度联合发报告:预测2019年人工智能十大趋势
全球人工智能
3+阅读 · 2018年12月21日
干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山?
阿里巴巴数据库技术
10+阅读 · 2018年12月12日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
人工智能产业链,是时候梳理一下了!
物联网智库
3+阅读 · 2018年1月19日
Top
微信扫码咨询专知VIP会员