One of the most critical aspects of integrating loosely-coupled accelerators in heterogeneous SoC architectures is orchestrating their interactions with the memory hierarchy, especially in terms of navigating the various cache-coherence options: from accelerators accessing off-chip memory directly, bypassing the cache hierarchy, to accelerators having their own private cache. By running real-size applications on FPGA-based prototypes of many-accelerator multi-core SoCs, we show that the best cache-coherence mode for a given accelerator varies at runtime, depending on the accelerator's characteristics, the workload size, and the overall SoC status. Cohmeleon applies reinforcement learning to select the best coherence mode for each accelerator dynamically at runtime, as opposed to statically at design time. It makes these selections adaptively, by continuously observing the system and measuring its performance. Cohmeleon is accelerator-agnostic, architecture-independent, and it requires minimal hardware support. Cohmeleon is also transparent to application programmers and has a negligible software overhead. FPGA-based experiments show that our runtime approach offers, on average, a 38% speedup with a 66% reduction of off-chip memory accesses compared to state-of-the-art design-time approaches. Moreover, it can match runtime solutions that are manually tuned for the target architecture.


翻译:将松散的加速器整合到各种松散的 SoC 结构中,最关键的一个方面是协调它们与记忆层的相互作用,特别是在浏览各种缓存一致性选项方面:从直接获取芯片外内存的加速器,绕过缓存层,到拥有自己私藏缓存的加速器。通过在基于多加速器的多核心苏Cs 的FPGA原型上运行真实规模的应用,我们显示,给定的加速器的最佳缓存-一致性模式在运行时各不相同,这取决于加速器的特性、工作量大小和总体 SoC 状态。Cohmeleon应用强化学习,在运行时为每个加速器选择最佳一致性模式,而不是在设计时的静态。通过持续观察系统并测量其性能,这些选择具有适应性。Cohmeleon是自动加速器-自动调整,并且需要最小的硬件支持。Cohmeleleleon 快速匹配方法,在运行时将一个可忽略的 Overimal-imeal-liftal-liftimal acal-liflical-lical-lical-lical-lical-lipple-lical-lifol-lical-lical-lical-lical-list-lical-lipperal-lapal- acal-to acal- acal- acal- acal- acal- acal- acal- acal- acal-tomentaltralation-tomentaltralation- acal-tomental-tomental-tomental-to-to-to-s-s-s-tod-tomental-s-tod-tod-to-to-to-to-to-to-to-to-to-to-to-to-to- acal-to-toal-toal-toal-toal-to-s-to-to-to-to-to-to-to-s-to-to-to-to-to-to-to-to-to-to- a 一种可展示一个可以展示一个可持续可展示一个可展示一个可持续自动缩缩缩缩缩

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
85+阅读 · 2020年5月11日
因果图,Causal Graphs,52页ppt
专知会员服务
242+阅读 · 2020年4月19日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
LibRec 精选:CCF TPCI 的推荐系统专刊征稿
LibRec智能推荐
4+阅读 · 2019年1月12日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能类 | 国际会议/SCI期刊专刊信息9条
Call4Papers
4+阅读 · 2018年7月10日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Arxiv
28+阅读 · 2021年9月18日
Arxiv
6+阅读 · 2021年3月30日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
4+阅读 · 2018年4月26日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
LibRec 精选:CCF TPCI 的推荐系统专刊征稿
LibRec智能推荐
4+阅读 · 2019年1月12日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能类 | 国际会议/SCI期刊专刊信息9条
Call4Papers
4+阅读 · 2018年7月10日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Top
微信扫码咨询专知VIP会员