近年来,将AI赋能应用部署至边缘端的诉求与能力显著增长。然而,边缘设备在算力、面积与功耗方面的限制,与AI应用对底层神经网络规模、深度与能力的持续提升需求形成矛盾。此类应用通常具有数亿至数十亿参数的大内存占用特征,并通过矩阵运算产生高计算需求,导致其成为诸多架构问题的极端案例。为解决诸如"内存墙"等架构挑战,计算机架构师与工程师开发了多种解决方案、框架与技术。面向内存计算架构、SIMD协处理器、神经网络引擎等专用系统的模拟装置已不同程度地提出与实施,但多数存在共同局限——设计时仅考虑有限实验场景,通常仅与传统系统进行对比。鉴于AI应用架构选择的多样性,孤立评估单一方案或对比融合多方案的异构系统变得极为困难。现代计算架构挑战的复杂性及异构系统普及趋势,使得架构设计空间探索的不可遍历性成为未来架构发展的阻碍。

为此,本博士论文提出ALPINE框架——基于gem5-X模拟器构建的全系统级计算机架构框架,并通过集成开发的工具与方法论,支持新型异构边缘架构的实施、建模与关键指标提取。该框架通过在通用系统全系统级仿真内核中集成多种新型加速器与接口建模能力,为现代神经网络架构探索奠定基础,并支撑未来研究。

利用ALPINE框架,我们首先实现对CPU近端模拟内存计算单元的建模,该单元通过指令集扩展接口执行恒定时间的矩阵向量乘法运算(AI应用常见瓶颈)。通过对多层感知机、循环神经网络与卷积神经网络等AI应用的广泛探索,聚焦关键子区域分析,我们验证了该方案的应用优势,揭示了跨核通信这一新兴瓶颈,并证明相较传统SIMD向量化系统可实现最高20.5倍加速与20.8倍能效提升。针对通信瓶颈,ALPINE框架内建模的无线暂存器可实现核间高速数据传输,使测试卷积神经网络额外获得20%性能提升。

基于ALPINE框架的高度可扩展性,我们重构加速器模型以支持CPU近端小规模脉动阵列建模。以Transformer模型为测试案例,验证其在全应用层面最高可实现89.5倍加速。通过ALPINE集成的脉动阵列与模拟内存计算双模型,我们能够在同系统中对比两种加速方案的性能、能效与功能取舍,并与配备SIMD协处理器与大容量缓存的系统进行横向评估。

为拓展ALPINE设计空间异质性维度,我们进一步研究基于总线传输接口的远端模拟内存计算单元,并与近端方案进行对比。该探索揭示了多进程神经网络中负载均衡与数据传输开销的影响机制,通过优化先进负载均衡算法,我们在多种卷积网络中实现额外加速与能效提升(最高超5倍)。

本论文研究表明,通过实施应用至加速器的映射、瓶颈隔离、架构工具与指标分析等方法,不仅能实现异构架构探索,更能揭示其实际效能。ALPINE框架具备充分通用性,可高效支持未来新型加速器模型、配置方案及神经网络瓶颈的探索。

关键词:全系统级仿真,计算机架构,人工智能,机器学习,深度学习,异构架构,神经网络,推理,内存计算,加速器,多层感知机,循环神经网络,卷积神经网络,Transformer模型,接口。

成为VIP会员查看完整内容
31

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《多域人机交互研究》95页
专知会员服务
20+阅读 · 6月2日
《云边计算中加速器虚拟化技术研究》187页
专知会员服务
28+阅读 · 4月10日
《自主机器人集群的实际考虑和应用》200页
专知会员服务
56+阅读 · 2024年5月5日
《扩展目标跟踪方法在现代传感器中的应用》215页
专知会员服务
50+阅读 · 2024年4月22日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
32+阅读 · 2022年3月23日
面向大数据处理框架的JVM优化技术综述
专知会员服务
17+阅读 · 2021年11月27日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
最新《动态网络嵌入》综述论文,25页pdf
专知
36+阅读 · 2020年6月17日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《多域人机交互研究》95页
专知会员服务
20+阅读 · 6月2日
《云边计算中加速器虚拟化技术研究》187页
专知会员服务
28+阅读 · 4月10日
《自主机器人集群的实际考虑和应用》200页
专知会员服务
56+阅读 · 2024年5月5日
《扩展目标跟踪方法在现代传感器中的应用》215页
专知会员服务
50+阅读 · 2024年4月22日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
32+阅读 · 2022年3月23日
面向大数据处理框架的JVM优化技术综述
专知会员服务
17+阅读 · 2021年11月27日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员