Data movement between main memory and the processor is a key contributor to the execution time and energy consumption of memory-intensive applications. This data movement bottleneck can be alleviated using Processing-in-Memory (PiM). One category of PiM is Processing-using-Memory (PuM), in which computation takes place inside the memory array by exploiting intrinsic analog properties of the memory device. PuM yields high throughput and efficiency, but supports a limited range of operations. As a result, PuM architectures cannot efficiently perform some complex operations (e.g., multiplication, division, exponentiation) without sizeable increases in chip area and design complexity. To overcome this limitation in DRAM-based PuM architectures, we introduce pLUTo (processing-using-memory with lookup table [LUT] operations), a DRAM-based PuM architecture that leverages the high area density of DRAM to enable the massively parallel storing and querying of lookup tables (LUTs). The use of LUTs enables pLUTo to efficiently execute complex operations in-memory via memory reads (i.e., LUT queries) instead of relying on complex extra logic or performing long sequences of DRAM commands. pLUTo outperforms the optimized CPU and GPU baselines in performance/energy efficiency by an average of 1960$\times$/307$\times$ and 4.2$\times$/4$\times$ across the evaluated workloads, and by 33$\times$/8$\times$ and 110$\times$/80$\times$ for the LeNet-5 quantized neural network. pLUTo outperforms a state-of-the-art PiM baseline by 50$\times$/342$\times$ in performance/energy efficiency.


翻译:主内存和处理器之间的数据移动是50美元记忆密集型应用程序执行时间和能量消耗的一个关键因素。 这个数据移动瓶颈可以通过处理存储器( PiM) 来缓解。 PiM 的一个类别是处理使用存储器( PuM), 通过利用内存设备的内在模拟属性在存储器内进行计算。 PumM 产生高传输量和效率,但支持有限的操作范围。 因此, Pum 结构无法有效完成一些复杂的操作( 例如, 倍增、 司、 Expentiment $ ), 而芯片区域和设计复杂度却不会大幅增加。 为了克服基于 DRAM 的 PumyM 结构中的这一限制, 我们引入了 PLUTO( 处理使用- 使用存储表[ LUT] 操作的模拟), 一个基于 DRAM 高区域密度, 使搜索表的大规模平行存储和查询( LUTs) 使用 LUTPUT 以美元 美元 快速执行复杂操作操作, 通过IMLUT IM 的运行运行运行中, IMUT 运行运行一个运行的运行中, 运行中, 直径级的运行运行运行运行运行中, 运行运行中, 运行中, 运行中, 运行中, 运行中, 运行中运行中, 运行中运行中运行中运行中运行中运行中运行中运行中运行中运行中运行中, 。

0
下载
关闭预览

相关内容

PARCO:Parallel Computing。 Explanation:并行计算。 Publisher:Elsevier。 SIT:http://dblp.uni-trier.de/db/conf/parco/
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
66+阅读 · 2021年11月15日
专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
29+阅读 · 2020年10月9日
专知会员服务
41+阅读 · 2020年8月14日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2022年1月27日
Arxiv
8+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
66+阅读 · 2021年11月15日
专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
29+阅读 · 2020年10月9日
专知会员服务
41+阅读 · 2020年8月14日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员