文 | 叨叨
来自雷锋网(leiphone-sz)的报道
雷锋网消息,近日 IBM 在纽约发布了最新设计的POWER9处理器,以及装有 POWER9的新一代Power Systems服务器—— AC922。
2017年下半年以来,针对大数据和云计算,IBM发布了多款硬件。值得一提的是,AC922是 IBM 第一款针对企业级 AI市场发布的新品,该系统专门为人工智能、加速计算而设计,根据其内部测试数据,相比 X86 系统,可将深度学习框架下将训练时间缩短至原来的1/4。
IBM大中华区科技合作部副总裁Mary Coucher 表示,早四年前IBM 开始设计 POWER9时,就在整个过程中都考虑了如何来为 AI 服务。
具体到数据上,跟x86相比,POWER9的线程增加 2 倍, I/O带宽增加5倍,CPU和GPU之间的内存共享提升至2TB,且率先使用了PCIe 4.0技术的,速度比基于PCIe Gen3的x86快了2倍多。
基于POWER9 的 AC922,则嵌入了PCI-Express 4.0、新一代NVIDIA的 NVLink及OpenCAPI,在加速数据传送方面,超越了 x86 数倍,能够大幅提升Chainer、TensorFlow及Caffe等人工智能框架的性能,并加速Kinetica等数据库。
雷锋网了解到,正式产品将于本月22日上市。
以下为针对该新品在人工智能及应用方面的采访,受访人有IBM副总裁、大中华区硬件系统部总经理侯淼,IBM大中华区科技合作部副总裁Mary Coucher ,IBM杰出工程师、大中华区硬件系统部首席技术官李永辉等,雷锋网在不改变原意的基础上,做了增删。
提问:为什么针对 AI ?使用场景有哪些?
侯淼:大家好奇为什么这次发布针对AI,机器对AI和机器不对AI到底有什么差别。
在过去IBM很多产品都是针对传统的工作负载,像大家在银行做银行交易一样,可能手机上有一个消费,你买了一本书,花了30块钱,这笔交易会留到银行和你的账户,会访问Database,会从你的银行的账户减掉30块钱,然后确认把这个钱给商家,这样的输入就完成了,整个过程是串行的程序来保证数据一致性,不可能并行起来。对后台机器的要求在于I/O、内存和CPU之间通路的完整性,通过软件要使这个交易完整,我们传统叫针对Online Transaction系统。
什么是AI的场景?举一个很有意思的例子,比如说在一个视频上识别一个人,有几个步骤来做,第一,要让一个机器知道要找的这个人的面貌特征,知道的过程就要用深度学习训练。这里有几个很关键的点,识别时间越短越好,越快越好,越准越好。
IBM这一套技术在进行训练的时候,有一个深度学习的的一套框架,这里包括我们改进了NVLINK GPU-CPU互连加速技术、CAPI I/O加速及内存一致性访问技术、水平扩展等,以前只能在一台机器,可能是十个小时,如果能够十台机器一块儿来做的,有可能是1个小时,这是IBM的优势。
接下来当你进行识别的时候,发现如果一个视频里有十个人,这个识别不是不需要从左边找第一个人到右边,而是会同时去看这些人。如果有一百个人,也会同时看一百个人到底这里面能看多少人,这取决于GPU的能力,GPU的数量越多,并发的密度越高,能力越强。
如果是高清图像的话要求你的分辨率很高,这就跟GPU和CPU的内存相关,内存越大,你所得到的数据越高,从而这个比对的精准度会越快。IBM这次发布的AC922,第一个特征就是支持在2U的设备里支持6个GPU,这使识别的速度会大幅度提高。
第二是跟NVIDIA合作,采用了新一代 NVLink,它把CPU和GPU相连接,好处在于,进行高清识别的时候,当GPU内存不够的话可以访问主内存,这是非常大的优势。高清识别的时候,很多情况下GPU的内存不够,会限制访问速率,或者牺牲速度增加质量,或者牺牲质量增加速度,而在AC922不需要这样来做。
提问:近4倍的超越对于芯片来讲是一个什么概念? AI现在的发展跟软件有很大关系,软件的倍数会更多,是否可以介绍一下这一点?
李永辉:人工智能不单单是硬件平台,还涉及到软件的堆栈。AC922是为了人工智能而设计的,在2个U的密度里放了最多6个 GPU,可以大大加速很多人工智能框架。
我们采用最新的GPU技术——V100,业界最顶级的,有双密度、单密度、半密度的算法,有效加速人工智能训练过程,也可以做一个性能的提升。在V100 GPU里有Tensor Core的设计,专门针对人工智能权重算法,实现并行度的加速。
在这个基础上做了软件堆栈,这个堆栈是去年年底发布的Power AI,我们随着业界出现的主流AI框架,优化到IBM Power平台上去。今天有很多客户是不容许在网下载一些开源的软件,怕有病毒,IBM已经把这些应用编译到POWER 平台上,利用NVLink技术和POWER9,提供了对开源软件很好的支持和优化。
此外,还做了一些功能性的增强,一方面是水平的扩展,很多的开源应用只局限在一台机器跑,我们透过Spark的技术,在12月初刚发布了 Deep Learning Impact,利用大数据的技术,把人工智能的框架水平扩展到多台机器上去跑,同时也提供一些工具,实现Hyper-parameter Search超参条选,缩短 AI 应用开发的时间。
提问:现在国内对人工智能保持非常激进的态度,政府、企业界、学术界都非常激进,对IBM来说,是否会在中国放更大的精力,投入更多?
李永辉:我们了解到人工智能在中国是很热门的课题,包括中国政府在8月4号发布新一代人工智能的规划。
其次, IBM看到在全球领域,在AI比较关注的国家或者是很多比较创新的跟AI有关的国家,中国绝对是领先之一。因此,在我们这次发布的POWER服务器和相关配套的解决方案里,IBM中国的研究院开发团队都有参与部分人工智能的软件或者是有关产品的开发。IBM是非常关注中国人工智能的发展,同时我们也有一定的投入在这里,把我们对中国市场的了解反馈到产品里,更好的支持我们的客户。
提问:培训原来是单机用得比较多,什么情况下会用到并行?行业应用好像一台就够了吧?
李永辉:今天的AI刚刚发展起来,当初发展很快的原因是因为业界有很多开源AI的框架可以供一些人做应用实验,这个框架往往只能放在一台物理机器上跑。很多厂家,不只是IBM,也在摸索怎么样可以更有效的把AI框架拓展到多台机器上去。这里涉及到Caffe和TensorFlow等人工智能框架能不能水平扩展开,还涉及到底层的互联互通,信息的交互等。
学习的过程,当你处理的图像越大,精密度越高,性能要快的话,就需要用到这种水平拓展的技术。单一台机器跑,如果今天要处理一些比较复杂的问题,可能要跑数天或者超过一周的时间才能训练完一堆数据。如果你在神经网络里选择了不合适的超参(Hyper-parameter),在人工智能网络里,跑了一半或者跑了数天后才发现数据有问题或训练收敛不了,那就需要重新设定,重新训练,整个开发应用周期就太慢了,IBM提供的工具可以自动化帮你做一个超参的首巡,这也是IBM很出色的能力,同时间底层做水平的扩展,加快训练的时间,做水平扩展的另外一个好处是多租户的环境。
IBM是做平台出身,我们做一个框架帮你打通所有的平台,将来对客户来讲这是AI的资源池,在上面放Deep Learning Impact解决方案,底层打通,无论将来的应用提交到多少CPU上去都可以跑起来,如果一个不够可以给两个,两个不够可以给三个,这样对用户来讲是加快速度,另外是多租户的使用场景。
提问:POWER9除了HPC和AI方面,还适用于什么市场呢?
李永辉:POWER 有超过25年的市场,今天很多的客户是跑在核心的关键应用,像数据库的应用,像一些企业资源管理的应用,像一些大数据分析的应用或者是中间件等等,今天很多客户核心的平台都会用的。
为什么我们强调AI,原因是我们看到在过去可能一两年内,这个领域做了很大的改变,我们看到IT正进入一个新时代,这个新的时代,IBM称之为认知时代。在这个认知时代里面,新的平台是需要有能力做到一些认知的能力,这些认知的能力包括所谓理解的能力、推理的能力、学习的能力、交互的能力,这些能力很多都是需要通过GPU来实现的。比如说做图像识别、语音识别等等。
为什么我们看到新一代的机器需要有一种混合架构,GPU的能力,不单只是传统的CPU能力,我们还需要很好的连接GPU的能力, POWER9的第一款服务器不仅提供了很好的CPU以外,也提供新一代NVLINK 连接CPU 来加速AI的能力,同时也做了很多I/O加速的能力。IBM的一个调研发现,到2020年网络上流动的数据有超过一半是视频,如果今天没有一种像CAPI这种加速网络的技术,将来怎么应付这么海量的数据处理呢?
侯淼:从以前IBM POWER4、5、6、7、8,到现在的POWER9,针对传统的工作负载不断在增强,包括支持更多的核,包括更大的内存总线、更大的内存、更强的I/O,很正常。新的POWER9 AC922作为第一款的主打产品发布,实际上是增加了对AI市场的支持,换句话说增加了GPU,使这个机器不单单能够解决传统的工作负载的问题,也能够解决新的有关分析和人工智能问题。
提问: AC922主要是面对AI,但我们更多的应用还是传统的应用,不知道这些用户从POWER9当中能够获得什么受益?
Mary Coucher:我们这个产品的确是针对AI来发布的,在整个2018年大家会看到我们会有更多关于POWER9的产品一些新的发布。我们针对各种类型的,比如说针对scale-out、针对超算,还有scale-up……传统可能更注重商业机会,对于传统商业客户和研究机构来讲,他们其实对AI非常感兴趣,因为AI可以帮助促进他们的商业机会,能够更好地运用他们掌握的数据,增加更多的机会,他们可以去更好的理解市场,更好的去获得更大的客户群。这对制造业、零售业、供应链、医疗、银行业等等来讲都是这样的。
提问:原来在POWER8上跑的系统对软件有没有挑战,是可以顺利的迁移呢?
李永辉:IBM POWER到今天是第九代,但是一直保留了兼容性,IBM POWER的核是兼容的,今天POWER8的用户到POWER9都可以跑下去,没有问题。
我们这次发布是AC922,是凸显了IBM对AI领域的重视,并不是说我们只有这一款机器。这是POWER9的第一个开始。我们在明年会有针对商业化,针对水平、纵向扩展的机器也会慢慢陆陆续续发布。
针对应用的部分来讲,POWER8的应用可以迁移到POWER9,没有问题,同时间POWER9带来新类型的能力,像刚才讲的GPU采用最新一代的V系列的芯片,它也有一些新的算法上的优化,有新一代的NVLink,CAPI和OpenCAPI、PCIe 4.0等等一些标准,这肯定是原来POWER8没有的,这是POWER9才有的,如果用户需要体现一个新的能力的话,他需要在我们新的平台当中做一些优化,重新编译等。
◆ ◆ ◆
推荐阅读
计算机视觉基础入门教程
计算机视觉基础班,上海交通大学博士讲师团队;从算法到实战应用,涵盖CV领域主要知识点;手把手项目演示,全程提供代码;深度剖析CV研究体系,轻松实战深度学习应用领域!详情点戳阅读原文链接或长按识别下方二维码~