It is generally observed that the fraction of live lines in shared last-level caches (SLLC) is very small for chip multiprocessors (CMPs). This can be tackled using promotion-based replacement policies like re-reference interval prediction (RRIP) instead of LRU, dead-block predictors, or reuse-based cache allocation schemes. In GPU systems, similar LLC issues are alleviated using various cache bypassing techniques. These issues are worsened in heterogeneous CPU-GPU systems because the two processors have different data access patterns and frequencies. GPUs generally work on streaming data, but have many more threads accessing memory as compared to CPUs. As such, most traditional cache replacement and allocation policies prove ineffective due to the higher number of cache accesses in GPU applications, resulting in higher allocation for GPU cache lines, despite their minimal reuse. In this work, we implement the Reuse Cache approach for heterogeneous CPU-GPU systems. The reuse cache is a decoupled tag/data SLLC which is designed to only store the data that is being accessed more than once. This design is based on the observation that most of the cache lines in the LLC are stored but do not get reused before being replaced. We find that the reuse cache achieves within 0.5% of the IPC gains of a statically partitioned LLC, while decreasing the area cost of the LLC by an average of 40%.


翻译:一般认为,共享最后一级缓存(SLLC)中的活线条对于芯片多处理器(CMPs)来说非常小。这可以通过基于升级的替换政策来解决,如重参考间隔预测(RRIP)而不是LRU、死区预测器或再利用缓存分配计划等基于升级的替换政策。在GPU系统中,类似的LLC问题利用各种缓存绕路技术得到缓解。在混杂的 CPU-GPU系统中,这些问题更加恶化,因为两个处理器有不同的数据访问模式和频率。GPUs通常在流数据上工作,但与CPU相比,存取记忆的线条更多。因此,大多数传统的缓存替换和分配政策证明无效,因为GPU的缓存访问量较多,导致对GPU的缓存线的划拨量增加,尽管它们很少得到再利用。在这项工作中,我们为混杂的 CPU-GPUS系统实施了重新使用缓存办法。再利用缓存标签/数据SLLLC是一种分解的标签/数据,其设计仅存储数据。这个设计的基础是40级的缓存区域C在存储器中,而我们正在逐渐更换的缓存区域线段中,而没有在最小化的递置成本中,我们正在逐渐取代了最大再利用。

0
下载
关闭预览

相关内容

专知会员服务
37+阅读 · 2021年4月27日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
18+阅读 · 2021年4月4日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
44+阅读 · 2020年10月31日
系列教程GNN-algorithms之六:《多核卷积拓扑图—TAGCN》
专知会员服务
49+阅读 · 2020年8月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
0+阅读 · 2021年9月25日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员