性能提升10倍以上:阿里达摩院成功研发新型存算一体芯片

2021 年 12 月 4 日 机器之心
机器之心报道

编辑:泽南

人脑的特性就是存算一体,神经元在处理任务时具有极高的并行度,并且功耗极低。

本周五,阿里巴巴达摩院宣布成功研发新型存算一体架构芯片。

据达摩院介绍,该芯片是全球首款基于 DRAM 的 3D 键合堆叠存算一体 AI 芯片,可突破冯 · 诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定 AI 场景中,该芯片性能提升 10 倍以上,能效比提升高达 300 倍。


从诞生之日起,计算机系统就是在冯 · 诺依曼架构下运行。在经典架构中,计算与内存是分离的,计算单元从内存中读取数据,计算完成后再存回内存。然而,随着人工智能等对性能要求极高的场景爆发,这一技术架构的短板逐渐显露,如功耗墙、性能墙、内存墙的问题。

AI 模型的算力需求每两年提升 750 倍,而在同样的时间内芯片的峰值算力只有 3 倍左右的提升,中间存在高达 20 倍的差距。目前我们采用的算法还只能是增大并行规模和运行时长。

相比之下,内存的性能提升速度要比芯片算力更慢,而且我们还不能简单通过增加内存系统节点的方法来解决需求,如果我们使用过多内存的话,通信成本将会出现指数级增加。


应用正在对内存系统提出严苛的要求。数据显示,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的 200 倍左右,真正用于计算的能耗和时间其实占比很低。
 
存算一体芯片是解决这一问题的有效途径,它类似于人脑,将数据存储单元和计算单元融合为一体,大幅减少数据搬运,从而极大提高计算并行度和能效。

这一技术早在 90 年代就被提出,但受限于技术的复杂度、高昂的设计成本,以及缺少应用场景,过去几十年业界对存算一体芯片的研究进展不断,但没有出现大规模商用化的技术。随着 AI 场景的爆发,业界迫切需要该技术来解决算力瓶颈,达摩院希望通过自研创新技术解决业界难题。
 
实现存算一体有三种技术路线:

  1. 近存储计算(Processing Near Memory):计算操作由位于存储芯片外部的独立计算芯片完成。

  2. 内存储计算(Processing In Memory):计算操作由位于存储芯片内部的独立计算单元完成,存储单元和计算单元相互独立存在。

  3. 内存执行计算(Processing With Memory):存储芯片内部的存储单元完成计算操作,存储单元和计算单元完全融合,没有一个独立的计算单元。


其中,近存计算通过将计算资源和存储资源距离拉近,实现对能效和性能的大幅度提升,被认为是现阶段能解决内存墙问题的最佳途径。达摩院本次也是沿着这一方向进行突破。
 
达摩院计算技术实验室自 2019 年成立以来,一直在尝试使用各种方法解决内存墙瓶颈问题。

此次,达摩院研发的芯片首次采用混合键合(Hybrid Bonding)的 3D 堆叠技术——将计算芯片和存储芯片 face-to-face 地用特定金属材质和工艺进行互联。最终的测试芯片显示,这种存算技术和架构的优势明显,能通过拉近存储单元与计算单元的距离增加带宽,降低数据搬运的代价,缓解由于数据搬运产生的瓶颈,而且与数据中心的推荐系统对于带宽 / 内存的需求完美匹配。

在今年 10 月 20 日的云栖大会上,平头哥半导体研究科学家牛迪民对存算一体技术研究进行了介绍。

在设计方面,该芯片内存单元采用异质集成嵌入式 DRAM,拥有超大内存容量和带宽优势,相比传统 SRAM 获得了数量级上的提升,片上内存带宽可高达 37.5GB/s/mm2。

计算芯片方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行「端到端」加速,包括匹配、粗排序、神经网络计算、细排序等任务。这种近存架构也有效解决了带宽受限的问题,最终内存、算法以及计算模块完美融合,大幅提升带宽的同时还实现了超低功耗,展示了近存计算在数据中心场景的潜力。

在阿里自身推荐系统任务的测试中,存算一体芯片已经展示了先进性。 

该芯片的研究成果已被即将在明年 2 月举行的 IEEE 国际固态电路顶级会议 ISSCC 2022 收录。


达摩院在存算一体架构方向上已拥有大量成果,在 ISCA、MICRO、HPCA 等顶级计算机体系结构会议上发表多篇论文。

「我们认为,存算一体的未来基于存内计算的架构,它会是通向通用人工智能道路上不可或缺的关键技术,」牛迪民说道。
 
达摩院表示,存算一体芯片在海量数据计算场景中拥有天然的优势,在终端、边缘端以及云端都有广阔的应用前景。例如 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景中,存算一体芯片都可以发挥高带宽、低功耗的优势。从长远来看,存算一体技术还将成为类脑计算的关键技术。


目前,整个行业对存算一体芯片技术的研究依旧处于探索阶段,在工艺成熟度、典型应用、生态系统等方面仍不成熟,达摩院希望逐步攻克技术难题,基于三维堆叠的近存芯片,通过拉近存储单元与计算单元的距离、增加带宽,来降低数据搬运的代价,缓解由于数据搬运产生的瓶颈。

参考内容:
http://submissions.mirasmart.com/ISSCC2022/PDF/ISSCC2022AdvanceProgram.pdf
https://yunqi.aliyun.com/2021/agenda/session126?spm=5176.23948577a2c4e.J_6988780170.27.37a23798jiwZ4z


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
2

相关内容

半导体元件产品的统称。是集成电路(IC, integrated circuit)的载体,由晶圆分割而成。
6G物理层AI关键技术白皮书(2022)
专知会员服务
43+阅读 · 2022年3月21日
阿里达摩院十大科技趋势报告,31页pdf
专知会员服务
67+阅读 · 2021年12月29日
唐杉博士:人工智能芯片发展及挑战
专知会员服务
48+阅读 · 2021年12月4日
人工智能AI中台白皮书(2021年),45页pdf
专知会员服务
286+阅读 · 2021年9月18日
专知会员服务
19+阅读 · 2021年6月29日
专知会员服务
35+阅读 · 2021年5月10日
2021年中国人工智能在工业领域的应用研究报告(附报告)
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
107+阅读 · 2020年1月2日
能效比提升超两倍,全球最高效ADC芯片问世
机器之心
0+阅读 · 2021年5月22日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
6G物理层AI关键技术白皮书(2022)
专知会员服务
43+阅读 · 2022年3月21日
阿里达摩院十大科技趋势报告,31页pdf
专知会员服务
67+阅读 · 2021年12月29日
唐杉博士:人工智能芯片发展及挑战
专知会员服务
48+阅读 · 2021年12月4日
人工智能AI中台白皮书(2021年),45页pdf
专知会员服务
286+阅读 · 2021年9月18日
专知会员服务
19+阅读 · 2021年6月29日
专知会员服务
35+阅读 · 2021年5月10日
2021年中国人工智能在工业领域的应用研究报告(附报告)
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
107+阅读 · 2020年1月2日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员