ReRAM 「存算一体」应用于AI大算力的新思路

2022 年 4 月 7 日 36氪
亿铸科技以全数字的技术思路将ReRAM “存算一体”应用于AI大算力领域,它能否打破传统冯诺依曼架构下的存算墙、能耗墙和编译墙?



在我国西部,一座座数据中心正在拔地而起,为全国输送着源源不断的算力。但数据计算往往伴随着巨大的功耗,因此发展数据中心和实现“双碳”目标之间存在着巨大的矛盾。在“碳中和”已经成为全球共识的当下,国家在近段时间推出的“东数西算”工程受到了社会各界广泛关注。“东数西算”通过在全国布局8个算力枢纽,引导大型、超大型数据中心向枢纽内集聚,形成数据中心集群,以此优化资源配置,提升资源使用效率。虽然“东数西算”为优化数据中心的供能结构提供了政策助力,但并不能从技术层面解决既有算力能效比和算力能耗绿色发展需求之间的根本矛盾。计算芯片的功耗向来是芯片制造工艺演进中备受关注的指标之一。在后摩尔时代,单纯通过工艺制程的提升降低芯片功耗的路径也日渐捉襟见肘,已经接近摩尔定律的物理极限。此外,巨大的生态依赖性也牵扯着各个AI应用场景的发展进程。

但随着基于ReRAM的全数字存算一体架构大算力、低功耗、易部署芯片的研发和产业化,这一难题似乎有了新的解决思路。


存算一体打破“存算墙”和“能耗墙”

在芯片产业发展的过程中有两座绕不开的大山:“存算墙”以及“能耗墙”。

1946年,美籍匈牙利科学家冯·诺依曼(J.Von Neumann)提出了著名的存储程序原理,此后70余年,现代计算机发展到第五代,存储器经历磁存储,光存储等一路发展至半导体存储,而冯·诺依曼结构是当下最主流的计算机结构的地位却从未变过。但随着时代的飞速进展,存算分离结构的天生缺陷使得冯·诺依曼结构的电子计算机似乎已经难以满足数据处理更海量、更快速、更低耗的需求。

为什么说冯·诺依曼结构存在天生的缺陷?这是因为在该结构设计中,CPU访问存储器的速度决定了系统运行的速度,这也使得系统对存储器产生了绝对的依赖。随着半导体技术快速发展,CPU的运算速度已经远远超过了访存速度,前者通常是后者的200倍以上,CPU在执行指令间不得不等待数据。CPU和内存之间的数据传输带宽,以及传输过程中每一层代码的手动优化,都成为限制计算机性能进一步提高的瓶颈,带来“存算墙”问题。

而AI计算在处理大量数据的过程中,这些数据需要在计算和存储单元中进行频繁的移动,移动受制于关键部件的技术瓶颈,也带来了芯片面积增加、接口IP成本增加、功耗增加等一系列问题,也就产生了“能耗墙”问题。

尤其当工艺制程的发展开始进入后摩尔时代,业界对于解决这一问题的全新的技术路线显得更加渴求和迫切——于是,“存算一体”便被提了出来。这是一种将存储和计算有机结合的非冯诺依曼架构,理论上计算可以直接在存储器中进行,这样既打破了系统对于存储器的绝对依赖,还能够极大地消除数据搬移带来的开销,彻底消除“存算墙”以及“能耗墙”的问题。


新型存储ReRAM,实现存算一体的最优解

既然理论上是可行的,那么实际又该如何实现存算一体呢?

大体上看,市面上大概有三个流派的方案实现存算融合:一是利用先进封装技术把计算逻辑芯片和存储器(如DRAM)封装到一起,以高IO密度来实现高内存带宽以及较低的访问开销,或采用更先进的制程工艺,比如2.5D、3D的封装以及高位宽的HBM接口等,实现近内存计算;二是在传统DRAM、SRAM、NOR Flash、NAND Flash中实现存内计算;三是利用新型存储元件实现存算一体。

但可惜的是,大部分技术还是无法真正地解决“储算墙”和“能耗墙”的问题。

随着亿铸科技推出基于ReRAM研发的“全数字存算一体”技术,上述问题似乎有了解法。该芯片材料特性以及生产工艺相对成熟,可突破性能不足、使用场景受限、制造成本过高等多种问题,更易于实现大范围普及和商业化应用。

不仅如此,基于忆阻器(ReRAM)技术的计算单元可以通过阻值器件的存储记忆特性,利用基础物理定律和原理完成海量的AI计算;通过存算一体的架构,可以节省把数据从内存单元逐层搬迁到计算单元的环节,从而得以节省因为数据搬迁而产生的大量衍生成本,这此类方式也符合国家对于碳中和、碳达峰的技术发展路线,改变了传统AI运算数据量需要带来巨大能耗的现状。

从年增长率、速度、可扩展性、与CMOS的兼容性、IEEE认定的新型存储介质要素、实际商业化进程等方面来看,ReRAM在与诸如相变存储器、MRAM等其它新兴存储技术相比中,表现都是非常优异的。

ReRAM的强大优势吸引了大量厂商的争相研究和应用落地,包括台积电、联电、格罗方德、中芯国际以及昕原半导体等均已建立了可量产的商业化ReRAM产线,其中昕原半导体的国内第一条28nm制程后道产线,已可以量产商用出货。


亿铸ReRAM全数字存算一体技术:具备大算力、低功耗、易部署的三大优势

在ReRAM存算一体赛道涌入大量玩家的环境下,谁又能拿到突围的先发优势呢?

当下,ReRAM存算一体这个赛道有两种解决方案,一种是模拟的,一种是全数字的,模拟方案天然吻合信号量的物理特性,但却存在一定的精度受限的问题,另外它还会产生模拟和数字之间频繁转换的衍生成本。

作为业界首家采用全数字路线耕耘于基于ReRAM的存算一体大算力芯片的公司,亿铸科技采用的是另一种:全数字解决方案。基于ReRAM研发“全数字存算一体”的算力芯片,可以最大范围提高产品精度,解决以前存算一体技术中模拟芯片低精度问题。此外,该方案还节省了模拟技术的衍生成本,形成了一套既能保证精度同时又能最优化面积和功耗的解决方案。

基于ReRAM的全数字存算一体AI计算架构,除了能有效地解决存算墙和能耗墙的问题之外,还可以解决当下的AI应用面临的“编译墙“问题。

在冯诺依曼架构下,计算非常依赖多级存储的架构, 这种架构对编译器非常不友好。编译器在编译代码的过程中无法感知代码的动态特征,会出现卡顿、延迟的情况,而全数字存算一体可以把这些特征变成编译器直接感知的资源,保证时延确定性的同时自动优化资源的分配,可以方便客户快速部署各类算法。

全数字存算一体架构时延确定和易部署的特性非常适合于自动驾驶的场景。自动驾驶包含的各类人工智能算法在运行之时会存在不同程度的时延问题,而存算一体的技术不仅可以解决时延不确定的问题,也可以提升系统的整体性能。

除了解决时延问题,还具有密度高、容量大、能效比高,能满足自动驾驶大吞吐计算需求,在物理稳定性上也能满足车规级产品在温度变动、震动、稳定性的要求。


全面自主研发国产替代

从芯片发展的历史来看,任何广泛应用的好产品都必须与成熟工艺紧密合作,比如台积电与英伟达在历史上的联合调试,不断优化台积电的先进工艺制程。而在ReRAM架构的全数字存算一体AI计算芯片这个领域,昕原半导体将会和亿铸科技强强联手、紧密调试,再现当年英伟达和台积电双剑合璧、共同发展先进制程工艺的经典案例。

昕原半导体基于Metal Wire工艺,在ReRAM器件的设计和制造工艺已经实现了全国产化,昕原半导体已经完成业界首款28nm制程ReRAM芯片流片,并且,已建成中国大陆首条中试线,拥有了垂直一体化存储器设计加制造的能力。此外,昕原半导体采用对CMOS友善的材料,能够使用标准的CMOS工艺与设备,对产线无污染,整体制造成本低,可以很容易地让半导体代工厂具备ReRAM的生产制造能力,一旦在自动驾驶和AI等领域产生突破性的应用真正起量,工艺马上就能够跟上,这对于量产和商业化应用都有很大优势。

近年来,国际形势的变化,使得半导体产业链面临的不确定性增加。也让国产化成为半导体企业的重要建设主题之一。

亿铸科技和昕原半导体的联合,也将会使得亿铸科技基于ReRAM全数字存算一体架构的大算力、低功耗芯片相关技术完全自主可控,实现从IP到生产的全国产化。


亿铸:小荷才露尖尖角,早有蜻蜓立上头。

尽管亿铸科技现在十分年轻,2021年10月才开始在上海正式运营,但它已经是目前国内唯一自主设计基于忆阻器(ReRAM)的“存算一体”大算力芯片的公司。

2021年底,亿铸科技完成由中科创星、联想之星和汇芯投资(国家5G创新中心)联合领投的天使轮融资。值得注意的是,领投方均是硬科技投资领域的著名机构。那么,能在如此多巨头涌入的赛道中打出自己的优势,并受到如此多资本的青睐,亿铸科技的底气是什么?

这个答案便是亿铸内部一支由产、学、研各界资深技术专家、精英工程师、创新领军人才、产业化先驱组成的国际化创业团队:

- 公司高管团队均拥有20+年不同类型芯片及系统软件研发、管理、市场、创业经验。

- 公司研发团队成员来自于国内外多家知名芯片企业和多所国内外著名大学,比如斯坦福、德州大学、上海交大、复旦大学和中科大等,已在具备顶尖学术和产业价值的顶会发表论文达40+篇,超过国内其他同类赛道团队的顶会论文总和, 研究成果已在不少知名头部公司商用化。

- 核心设计团队完整覆盖器件、芯片架构、SoC设计、软件系统及AI算法等全部技术领域。

- 工程团队也拥有丰富的芯片设计与流片经验丰富,能力卓越。

综合学界和产业界头部精英人才的强强组合,亿铸科技的团队已完全覆盖存算一体芯片底层的物理层、电路设计、架构全栈、芯片产品参考设计方案、商业化落地以及生态建设等各个方面的需要。


后摩尔时代的AI算力赛道,期待新技术的弯道胜出

全球AI算力需求迅猛增长。2012年至今,云端AI算力已经增长了超过30万倍,在未来的很长一段时间内,也将保持这个增速。正因如此,国家大力支持相关产业发展。2020年是真正意义上的新基建元年,AI 算力作为AI技术与产业大规模发展的巨大驱动力,将成为整个新基建的核心支撑。但在后摩尔时代,AI算力的普及应用始终面临存算墙、能耗墙和编译墙三座大山的掣肘,致使“高算力、低功耗、易部署”的市场呼声也越来越高涨。但在传统AI算力厂商先发优势的客观环境下,后来者很难在既有技术赛道上实现追赶。然而在新的技术领域比如基于ReRAM存算一体做大算力芯片,各国还处在同一起跑线,国内比如亿铸等先进初创公司已经起跑。

“时势造英雄。”每一次计算构架的大变革都会创造一个新的王者。从主机时代的IBM、PC 时代的英特尔到移动时代的高通,智能物联网时代必将会是新技术架构贡献者的天下,我们期待ReRAM存算一体全数字计算这一新技术能够成为解决存储墙、能耗墙、编译墙的新方案,在弯道胜出。

登录查看更多
4

相关内容

计算体系架构研究综述与思考
专知会员服务
65+阅读 · 2022年3月21日
阿里达摩院十大科技趋势报告,31页pdf
专知会员服务
66+阅读 · 2021年12月29日
2021年中国人工智能在工业领域的应用研究报告(附报告)
《人工智能计算中心白皮书》,43页pdf
专知会员服务
152+阅读 · 2021年3月5日
专知会员服务
29+阅读 · 2021年1月9日
中国电信总经理李正茂:算力时代三定律
THU数据派
0+阅读 · 2022年3月4日
2022十大科技趋势来了!达摩院最新发布
阿里技术
0+阅读 · 2021年12月28日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
13+阅读 · 2018年4月6日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员