G-GPU:类似 GPU ASIC 加速器的全自动发电机 (G-GPU: A Fully-Automated Generator of GPU-like ASIC Accelerators) - 专知论文

会员服务 ·

0

Performer · Automator · 可辨认的 · Processing（编程语言） · 前向 ·

2021 年 12 月 6 日

G-GPU: A Fully-Automated Generator of GPU-like ASIC Accelerators

翻译：G-GPU:类似 GPU ASIC 加速器的全自动发电机

Tiago Diadami Perez,Márcio M. Gonçalves,José Rodrigo Azambuja,Leonardo Gobatto,Marcelo Brandalero,Samuel Pagliarini

Modern Systems on Chip (SoC), almost as a rule, require accelerators for achieving energy efficiency and high performance for specific tasks that are not necessarily well suited for execution in standard processing units. Considering the broad range of applications and necessity for specialization, the design of SoCs has thus become expressively more challenging. In this paper, we put forward the concept of G-GPU, a general-purpose GPU-like accelerator that is not application-specific but still gives benefits in energy efficiency and throughput. Furthermore, we have identified an existing gap for these accelerators in ASIC, for which no known automated generation platform/tool exists. Our solution, called GPUPlanner, is an open-source generator of accelerators, from RTL to GDSII, that addresses this gap. Our analysis results show that our automatically generated G-GPU designs are remarkably efficient when compared against the popular CPU architecture RISC-V, presenting speed-ups of up to 223 times in raw performance and up to 11 times when the metric is performance derated by area. These results are achieved by executing a design space exploration of the GPU-like accelerators, where the memory hierarchy is broken in a smart fashion and the logic is pipelined on demand. Finally, tapeout-ready layouts of the G-GPU in 65nm CMOS are presented.

翻译：近似于常规的芯片(SOC)现代系统需要加速器来实现能源效率和高性能,而具体任务不一定适合标准处理单位执行。考虑到应用和专业化需要的广泛范围,SoC的设计因此变得格外具有挑战性。在本文件中,我们提出了G-GPU的概念,G-GPU是一个通用的GPU式加速器,它不是具体应用的通用GPU式加速器,但在能源效率和吞吐量方面仍然带来效益。此外,我们已经为ASIC的这些加速器找出了现有差距,因为没有已知的自动生成平台/工具。我们称为GPUPUPlanner的解决方案是从RTL到GDSSII的加速器的开源生成器,从而解决了这一差距。我们的分析结果表明,我们自动生成的G-GPU的G加速器设计与广受欢迎的CPU结构(RISC-V)相比,效率非常高,在原始性能表现方面速度高达223倍,在指标被区域贬低时达到11倍。我们称之为GPUPRER的解决方案,这些结果通过执行智能的G-rodemod Stimstal develop drutlock-hal lades the the lades the the lades the lades lades lades lades the lades lappral-s

0

相关内容

Performer

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

323+阅读 · 2020年11月26日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

专知会员服务

14+阅读 · 2019年11月17日

【O'Reilly TensorFlow Conference 2019】MLIR：加速人工智能（MLIR: Accelerating AI）

【O'Reilly TensorFlow Conference 2019】MLIR：加速人工智能（MLIR: Accelerating AI）

专知会员服务

7+阅读 · 2019年11月14日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

分布式并行架构Ray介绍

分布式并行架构Ray介绍

CreateAMind

10+阅读 · 2019年8月9日

已删除

将门创投

8+阅读 · 2019年1月30日

开发者应当了解的18套机器学习平台

开发者应当了解的18套机器学习平台

深度学习世界

5+阅读 · 2018年8月14日

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

专知

18+阅读 · 2018年7月15日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

分布式TensorFlow入门指南

分布式TensorFlow入门指南

机器学习研究会

4+阅读 · 2017年11月28日

【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测

【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测

机器学习研究会

9+阅读 · 2017年10月24日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

陈天奇团队发布TVM：把深度学习部署到手机、树莓派等更多硬件

陈天奇团队发布TVM：把深度学习部署到手机、树莓派等更多硬件

量子位

11+阅读 · 2017年8月18日

FAST-RIR: Fast neural diffuse room impulse response generator

Arxiv

0+阅读 · 2022年2月6日

Accelerating Communication for Parallel Programming Models on GPU Systems

Arxiv

0+阅读 · 2022年2月4日

Data-Driven Offline Optimization For Architecting Hardware Accelerators

Arxiv

0+阅读 · 2022年2月3日

AI Accelerator Survey and Trends

Arxiv

28+阅读 · 2021年9月18日

Neural Architecture Generator Optimization

Arxiv

6+阅读 · 2020年10月8日

MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

Arxiv

7+阅读 · 2019年10月8日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

A Study on Overfitting in Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年4月20日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation

Arxiv

5+阅读 · 2017年12月12日

VIP会员

文章信息

相关主题

Processing（编程语言）

相关VIP内容

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

323+阅读 · 2020年11月26日

基于FPGA的机器学习硬件加速研究进展

专知会员服务

81+阅读 · 2020年6月20日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

【论文】生成式教学网络:通过学习生成合成训练数据来加速神经结构搜索（Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data）

专知会员服务

14+阅读 · 2019年11月17日

【O'Reilly TensorFlow Conference 2019】MLIR：加速人工智能（MLIR: Accelerating AI）

【O'Reilly TensorFlow Conference 2019】MLIR：加速人工智能（MLIR: Accelerating AI）

专知会员服务

7+阅读 · 2019年11月14日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《军事域人工智能风险、机遇与治理战略指导报告》2025最新76页报告

《杀伤网与精确规模：智能饱和战争时代的战略要务-印度视角》2025最新报告

俄乌冲突的地缘政治与军事教训（万字长文）

《弹药快速效能建模：推进互操作性与技术优势》2025最新26页报告

相关资讯

分布式并行架构Ray介绍

分布式并行架构Ray介绍

CreateAMind

10+阅读 · 2019年8月9日

已删除

将门创投

8+阅读 · 2019年1月30日

开发者应当了解的18套机器学习平台

开发者应当了解的18套机器学习平台

深度学习世界

5+阅读 · 2018年8月14日

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

专知

18+阅读 · 2018年7月15日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

分布式TensorFlow入门指南

分布式TensorFlow入门指南

机器学习研究会

4+阅读 · 2017年11月28日

【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测

【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测

机器学习研究会

9+阅读 · 2017年10月24日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

陈天奇团队发布TVM：把深度学习部署到手机、树莓派等更多硬件

陈天奇团队发布TVM：把深度学习部署到手机、树莓派等更多硬件

量子位

11+阅读 · 2017年8月18日

相关论文

FAST-RIR: Fast neural diffuse room impulse response generator

Arxiv

0+阅读 · 2022年2月6日

Accelerating Communication for Parallel Programming Models on GPU Systems

Arxiv

0+阅读 · 2022年2月4日

Data-Driven Offline Optimization For Architecting Hardware Accelerators

Arxiv

0+阅读 · 2022年2月3日

AI Accelerator Survey and Trends

Arxiv

28+阅读 · 2021年9月18日

Neural Architecture Generator Optimization

Arxiv

6+阅读 · 2020年10月8日

MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

Arxiv

7+阅读 · 2019年10月8日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

A Study on Overfitting in Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年4月20日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation

Arxiv

5+阅读 · 2017年12月12日

微信扫码咨询专知VIP会员