Many hardware structures in today's high-performance out-of-order processors do not scale in an efficient way. To address this, different solutions have been proposed that build execution schedules in an energy-efficient manner. Issue time prediction processors are one such solution that use data-flow dependencies and predefined instruction latencies to predict issue times of repeated instructions. In this work, we aim to improve their accuracy, and consequently their performance, in an energy efficient way. We accomplish this by taking advantage of two key observations. First, memory accesses often take additional time to arrive than the static, predefined access latency that is used to describe these systems. Second, we find that these memory access delays often repeat across iterations of the same code. This, in turn, allows us to predict the arrival time of these accesses. In this work, we introduce a new processor microarchitecture, that replaces a complex reservation-station-based scheduler with an efficient, scalable alternative. Our proposed scheduling technique tracks real-time delays of loads to accurately predict instruction issue times, and uses a reordering mechanism to prioritize instructions based on that prediction, achieving close-to-out-of-order processor performance. To accomplish this in an energy-efficient manner we introduce: (1) an instruction delay learning mechanism that monitors repeated load instructions and learns their latest delay, (2) an issue time predictor that uses learned delays and data-flow dependencies to predict instruction issue times and (3) priority queues that reorder instructions based on their issue time prediction. Together, our processor achieves 86.2% of the performance of a traditional out-of-order processor, higher than previous efficient scheduler proposals, while still consuming 30% less power.


翻译:为了解决这个问题,提出了不同的解决方案,以节能的方式构建执行时间表。 发布时间预测处理器是使用数据流依赖性和预定义指示延迟来预测重复指示时间的一种解决方案。 在这项工作中,我们的目标是提高它们的准确性,从而以节能方式提高它们的性能。 我们利用两个关键观察来完成这项工作。 首先, 记忆电路接入往往需要更多的时间才能到达, 而不是用来描述这些系统的静态、 预设的存取时间。 第二, 我们发现这些存储访问延迟经常在相同代码的反复重复中重复出现。 这反过来, 使我们能够预测这些访问的到达时间。 在这项工作中, 我们引入一个新的处理器或微结构, 以高效、 可缩放的替代一个复杂的定点调度器。 我们提议的时间安排技术仍然跟踪实时延迟, 以准确预测指示问题的时间, 并且使用一个调整指令指令时间的机制, 以预测一个基于系统运行运行周期的连续指令时间, 从而实现快速的运行指令进程, 从而实现我们之前的学习机制的更新程序 。

0
下载
关闭预览

相关内容

Performance:International Symposium on Computer Performance Modeling, Measurements and Evaluation。 Explanation:计算机性能建模、测量和评估国际研讨会。 Publisher:ACM。 SIT:http://dblp.uni-trier.de/db/conf/performance/
专知会员服务
17+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
专知会员服务
59+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
3D Object Tracking with Transformer
Arxiv
0+阅读 · 2021年10月28日
Arxiv
0+阅读 · 2021年10月26日
Real-Time High-Resolution Background Matting
Arxiv
4+阅读 · 2020年12月14日
VIP会员
相关资讯
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
Top
微信扫码咨询专知VIP会员