作为传统高性能计算服务器厂商的浪潮集团,在人工智能时代起到衔接芯片厂商与 AI 企业的作用。为此,浪潮做出了新的尝试。目前,除硬件层面以外,在框架层以及系统管理层,浪潮均有布局。
撰文 | 王艺
人工智能深度学习是浪潮智慧计算的三大支柱业务之一。2017 新财年,浪潮宣布成立人工智能部门,打造包括多样化的硬件平台、管理调度与分析平台、以及深度学习框架的「平台组合」。实现前端承接多源数据、后端支撑智能应用,为人工智能提供先进计算力的目标。
目前,浪潮已经是 BAT 的 AI 计算 GPU 服务器的最主要供应商,并与科大讯飞、奇虎 360、搜狗、今日头条、Face++ 等人工智能公司保持在系统与应用方面的紧密合作,帮助 AI 公司在语音、图像、视频、搜索、网络等方面取得应用性能的提升。
9 月 7 日,在由中国工程院信息与电子工程学部主办、浪潮集团承办的人工智能计算大会(AI Computing Conference,简称 AICC)大会现场,浪潮集团副总裁、高效能服务器与存储技术国家重点实验室科学家胡雷钧发表了《AI 计算挑战与应对》主题演讲。会后,我们对胡雷钧进行了独家专访。
胡雷钧在 AICC 上演讲
演讲中,胡雷钧谈到,近年来计算能力的发展为大规模系统的应用提供了可能。在未来,计算能力对 AI 技术的发展仍旧至关重要。他提到了两个事实:
一、在目前亿级计算机的计算能力下,若要用由 120 万张图片组成的数据集训练一个 ResNet,需要进行 2200 亿次的浮点操作(即 22 Exaflops),耗时 41 天,1 Exaflops 每秒的计算机预计在未来五年出现。
二、目前深度学习大部分是有监督学习,训练复杂度相比无监督学习要小。无监督学习所涉及到的网络深度、节点数量、层与层之间的连接、训练数据都在随时变化。在这些变化之下,系统所需的计算规模将是现在的 100 倍。更进一步地,接近人脑的通用人工智能的学习模型是一个层次式的稀疏结构,每一个节点向下链接的又是一个层次式的稀疏结构。在摩尔定律的约束下,目前还看不到人脑级运算能够实现的具体时间节点。
因此,浪潮认为,未来对计算能力的需求在人工智能方向上依然很强烈,且看上去没有上限。AI 计算平台会遇到很多瓶颈,如数据的瓶颈、计算能力的瓶颈、延迟的瓶颈、通信能力的瓶颈。浪潮在其中看到了几个核心问题。第一,处理单元能以多快的速度读取到它需要处理的数据;第二,每次处理完成后能以多快的速度交换数据,这是通讯问题;第三,在单位的空间内能集成多少计算能力,这是约束着一个计算系统能够达到的最大规模,也是约束着模型训练的最大速度的问题。
为了使其硬件发挥更强大的效力,浪潮正在围绕着 AI 进行一系列的生态布局。除却其立身之本——硬件服务器外,浪潮在人工智能框架层以及系统管理层均有所涉猎。2015 年,浪潮发布全球首个集群并行版的 Caffe 深度学习计算框架——Caffe-MPI,它保留了伯克利版本 Caffe 架构的特性,同时又兼具高性能计算系统所需的良好并行扩展性。在系统管理层,浪潮 AIStation 提供从数据准备到分析训练结果的完整深度学习业务流程,提高集群的可靠性。
在采访中,胡雷钧表示,计算是浪潮的根本,建设以计算为核心的生态系统是在为整个产业加速。他把计算比作发动机,把其他层级比作润滑油。「如果我们是行业中的跟随者或者挑战者,那么我们可以选择依靠老大的力量。现在浪潮在整个市场中占比这样大,因此我们必须去做,不做的话首先是把自己拖慢了。」胡雷钧说。
目前,针对人工智能应用,浪潮已经推出十余款产品,这些产品被 AI 公司广泛使用。采访中,胡雷钧介绍到,以浪潮的视角,目前规模最大的人工智能产业在互联网行业,包括语音、图像、面向运维数据、媒体数据的分析、类似今日头条的推荐系统等。此外,在公安、交通、医疗等传统行业中,人工智能的应用也较为活跃。未来,在流通、零售领域的流量、交易大数据分析方面,人工智能也能起到一定的作用。
胡雷钧认为,目前人工智能的应用领域缺乏已经训练好的成熟的模型,用户还不能像购买软件 Licence 一样购买人工智能服务。并不是每一个有应用需求的客户都有能力、财力训练适合自身的 AI 模型。因此,如何真正释放 AI 市场最大的能量,是业界需要共同解决的问题。浪潮希望能够与更多的合作伙伴共同推动 AI 发展。