Processing-in-memory (PIM) reduces data movement by executing near memory, but our large-scale characterization on real PIM hardware shows that end-to-end performance is often limited by disjoint host and device address spaces that force explicit staging transfers. In contrast, CXL-PIM provides a unified address space and cache-coherent access at the cost of higher access latency. These opposing interface models create workload-dependent tradeoffs that are not captured by small-scale studies. This work presents a side-by-side, large-scale comparison of PIM and CXL-PIM using measurements from real PIM hardware and trace-driven CXL modeling. We identify when unified-address access amortizes link latency enough to overcome transfer bottlenecks, and when tightly coupled PIM remains preferable. Our results reveal phase- and dataset-size regimes in which the relative ranking between the two architectures reverses, offering practical guidance for future near-memory system design.


翻译:内存内处理(PIM)通过在内存附近执行计算来减少数据移动,但我们在真实 PIM 硬件上的大规模特性分析表明,端到端性能常受限于主机与设备地址空间分离所导致的显式暂存传输。相比之下,CXL-PIM 提供统一地址空间和缓存一致性访问,但代价是更高的访问延迟。这两种对立的接口模型产生了依赖工作负载的权衡,而小规模研究未能充分捕捉。本研究基于真实 PIM 硬件测量和基于追踪的 CXL 建模,对 PIM 和 CXL-PIM 进行了并行大规模比较。我们明确了统一地址访问何时能充分分摊链路延迟以克服传输瓶颈,以及紧密耦合的 PIM 何时仍更具优势。研究结果揭示了两种架构相对性能排序发生逆转的阶段和数据集规模区间,为未来近内存系统设计提供了实用指导。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员