来源:全释AI
本文约3550字,建议阅读7分钟
本文介绍了AI计算与GPU之间的联系以及国产GPU的破局之举。
2016年以来最新一轮AI发展浪潮中,AI技术的发展以及在各大领域的应用落地方面取得了丰硕的成果,而这背后关键的力量之一就是GPU算力的快速迭代升级。GPU算力资源已经成为AI计算不可或缺的基础设施,可以说在这一轮AI发展浪潮中,AI和GPU是相互成就。GPU算力的不断提升,带动AI计算突破了算力瓶颈,使AI得以大规模的应用;AI大规模应用以及越来越大规模的模型,也反过来带动了GPU算力的不断提升。
然而,AI计算与GPU的联系到一起,却不像现在大家理解的那样理所当然,背后具有一定偶然性,而当大家发现GPU在AI计算中具备的优势后,这又成了一件必然的事,从偶然走向必然又有哪些关键动力?毫无疑问英伟达是这一波AI浪潮中最大的赢家之一,截至目前另外两家GPU厂商AMD和英特尔可以说几乎错过这一波AI浪潮,背后又是哪些原因导致了这样的结果?最近几年国内的GPU创业公司获得资本的追捧,在实际业务发展中又有哪些可以借鉴的思路?
(建有算力需求群,欢迎进群交流算力需求)
01. AI计算与GPU的不解之缘
早在2005年和2006年就有研究采用GPU进行两层的神经网络(NN/CNN)计算,并且对比了GPU和CPU上的性能差异,不过那时在GPU上的加速效果并没有现在这样明显,通常在1-3倍左右,在CPU上采用特定的加速工具也能取得不错的效果,可能正是因为GPU上的加速效果有限,在那个时候GPU并没有成为AI计算的主流,也就是在研究层面做些尝试和探索。
2011年Dan等的研究采用英特尔Core i7-920的CPU,以及英伟达GTX 480和GTX 580的GPU,进行CNN模型的计算,结果显示GPU的加速效果达到了CPU的10-60倍,其中网络规模小的模型加速效果10倍速左右,对于网络规模大的模型加速效果达到60倍。GPU在AI计算中的加速效果已经非常显著,为进一步扩大GPU在AI计算领域应用创造了有利条件。
2012年,Hinton和Alex Krizhevsky设计的AlexNet,使用了两块英伟达GTX 580训练了两周的模型,将计算机图像识别的正确率提升了一个数量级,并获得了2012年ImageNet竞赛冠军,充分展示了GPU在AI计算中的巨大潜力。此前,在谷歌使用1000台CPU服务器,完成了猫脸识别的任务,2012年吴恩达等采用3台GTX680-GPU服务器完成了同样的任务。毋庸置疑,AlexNet和吴恩达等工作在业界和学界都产生了良好的示范效应。或许从这段时间开始,学术界关于AI相关的研究逐渐更多的采用了GPU,互联网头部厂商也陆续开始引入GPU到各自的生产研发环境。
2016年AlphaGo战胜李世石,2017年AlphaGo又战胜柯洁,标志着新一波AI发展热潮的开始,带动了全球AI产业发展。也是在AlphaGo之后,以深度学习为核心的AI技术逐渐在越来越多的应用场景落地,AI领域的创新创业也不断涌现,差不多从这时候开始,GPU基本开始成为AI计算的标配。最近随着AI技术的应用领域不断扩大,对GPU算力需求也是不断增加,目前还呈现出GPU供不应求的局面。
从2005/2006年开始有人尝试用GPU进行AI计算,到2012/2013年GPU被更大范围的接受,以及到2016/2017年GPU成本AI计算的标配,具有一定的偶然性,发现深度学习网络层次越深、网络规模越大,GPU的加速效果越显著。然而这又注定会是个必然的结果,AI经历三起三落的发展,每一次“落”的过程都为下一次“起”积蓄能量,第三“落”似乎算力不足是重要的因素,GPU的工作原理正好很大程度上契合了AI计算的需求,GPU算力的不断提升,以及2016年英伟达新的GPU架构专门针对AI计算场景进行优化和支持,对更多的AI计算场景采纳GPU都有重要推动作用。
02. 英伟达GPU何以独霸市场?
GPU成为AI计算的标配,其中最大的赢家非英伟达莫属,在AI计算领域英伟达的GPU几乎占到市场的绝大部分,英特尔和AMD等芯片巨头也几乎都错过了这一波AI浪潮的红利。英伟达做对了什么?英特尔与AMD缘何错过GPU需求爆发的市场机会?
2006年英伟达推出CUDA,带来了灵活便捷的GPU编程手段,这为使用GPU完成AI计算创造了良好的条件。2014年英伟达发布cuDNN V1.0深度神经网络加速库,并集成进了Caffe等AI框架中,进一步为基于英伟达GPU的AI计算提升性能和易用性等,使得AI开发和研究人员可以更加专注于神经网络结构的设计等。2016年英伟达推出的Pascal架构GPU产品,已经开始专门为AI计算场景,特别是推理计算场景,做了许多的定制和优化,能更好的满足AI计算的需求,此外推出NVlink单机多卡的互联技术,增加了GPU之间通信的带宽,也加速了多卡并行计算的效率。2017年英伟达在Volta架构系列GPU中引入TensorCore,使得英伟达GPU产品在AI计算的训练场景的性能继续提升。2020年英伟达又推出新一代Ampere架构的GPU产品,在算力和性能等又大幅提升。
目前在AI计算场景下,英伟达GPU已经成为最主流的选择,从整个发展过程中可以看到英伟达在软硬件方面的所做的努力也密不可分,并且从2014年开始英伟达在AI方面每一次布局都刚好恰到好处。CUDA的推出可能为2011年前后发现GPU在AI计算中10-60倍的加速效果创造有利条件;2014年推出的cuDNN,并集成进Caffe等AI框架,在软件层面进一步增加了英伟达GPU的易用性等;2016年开始直接在芯片层面全面支持AI计算场景需求,后续的产品在算力和性能等方面的提升正好又迎合了AI技术和产业发展的大趋势。
再看另外两家芯片巨头英特尔和AMD,这两家都有非常强大的实力,按理说应该也能在这一波AI浪潮取得巨大红利,但事实上却并没有。当然因为AI的发展带动CPU采购肯定也给英特尔和AMD带来了不少收益。过去10年中,英特尔并没有专门针对AI计算推出相应的产品,不论学界还是业界有AI方面新的研究成果,英特尔可能都会跟进在CPU上进行一些优化,声称在GPU上的性能只比在CPU上快2-3倍左右,并没有像其他地方所说的几十倍上百倍的效果。在AI计算效率等方面,英特尔在CPU上优化后确实能够缩小与GPU的差距,但这种优化的思路在业界并没有太多的跟随者,主要是优化工作本身的门槛相对较高。
AMD在过去十多年中CPU一直被英特尔压着,无暇顾及GPU市场的更多需求,虽然AMD的GPU在游戏市场也不错,但在AI计算方面始终没有形成气候。当然2018年前后AMD新架构的CPU产品面世之后,最近几年大有反超英特尔的架势,不久前AMD推出的Instinct MI100的GPU产品不知道是否会在AI计算领域挑战英伟达的地位,让我们拭目以待。
3、国产GPU该如何破局?
国内这一批GPU方面的创业公司主要都是在过去3年内成立,如沐曦、壁仞、摩尔线程等等,并且不少已经完成了几十亿元的融资,今年下半年或者明年这些家国产GPU厂商的产品估计也都差不多能推向市场。面对已经占据市场绝对主导地位的英伟达,以及强势入场的英特尔和AMD,国产GPU产品如何破局,才能在市场中占得一席之地?
中美贸易战以及最近的俄乌战争中西方对俄罗斯的制裁,对于国有GPU产品的采纳有重要的作用。回顾过去20年国产CPU产品的发展,由于英特尔和AMD的CPU产品的性价比较高,国产CPU产品此前一直未成气候,中美贸易战之后,信创产品的需求带动了国产CPU产品的发展。在当前的社会大背景下,国产GPU产品也有很大的用武之地,对于每一个国产GPU的厂商而言都是重大的机遇。
国产GPU产品短期内要跟英伟达等巨头抗衡估计难度比较大,因此在后续的发展路径中,建议是先积极拥抱信创产品体系,积极开展与地方政府或者在关系国计民生的特定领域等部门等紧密合作,针对该具体领域与上下游服务商形成相应解决方案,先保证能在市场中立足。只要在一个地方或一个领域占据优势位置,应该足以在市场中立足,然后再图更大的发展。
从英伟达GPU产品的成功案例中,国产GPU厂商也可以借鉴不少经验,在商用领域可能第一步需要实现对英伟达CUDA等软件生态的兼容,使得开发人员在实际使用过程中迁移成本最低,后续需要进一步增加在软件平台方面投入,不断提升自身GPU产品的易用性等,并联合更多的软件生态企业不断完善GPU和AI计算的软硬件生态体系。如果主要几个国产GPU厂商能联合制定和推出一套类CUDA的标准体系可能,或许能够对整个国产GPU产品的推广会有一定的意义。