This paper presents a workflow for synthesizing near-optimal FPGA implementations for structured-mesh based stencil applications for explicit solvers. It leverages key characteristics of the application class, its computation-communication pattern, and the architectural capabilities of the FPGA to accelerate solvers from the high-performance computing domain. Key new features of the workflow are (1) the unification of standard state-of-the-art techniques with a number of high-gain optimizations such as batching and spatial blocking/tiling, motivated by increasing throughput for real-world work loads and (2) the development and use of a predictive analytic model for exploring the design space, resource estimates and performance. Three representative applications are implemented using the design workflow on a Xilinx Alveo U280 FPGA, demonstrating near-optimal performance and over 85% predictive model accuracy. These are compared with equivalent highly-optimized implementations of the same applications on modern HPC-grade GPUs (Nvidia V100) analyzing time to solution, bandwidth and energy consumption. Performance results indicate equivalent runtime performance of the FPGA implementations to the V100 GPU, with over 2x energy savings, for the largest non-trivial application synthesized on the FPGA compared to the best performing GPU-based solution. Our investigation shows the considerable challenges in gaining high performance on current generation FPGAs compared to traditional architectures. We discuss determinants for a given stencil code to be amenable to FPGA implementation, providing insights into the feasibility and profitability of a design and its resulting performance.


翻译:本文展示了一个工作流程,用于综合近最优化的FPGA实施过程,用于为清晰的解决方案整合结构化的基于超模的Stencils应用程序。它利用应用类的关键特征、其计算通信模式和FPGA的建筑能力,以加速高性能计算域的解决方案。工作流程的关键新特征是:(1) 统一标准的最新技术,并采用一些高收益优化,如批量和空间阻塞/调节,其动机是增加真实世界工作负荷的吞吐量,(2) 开发和使用预测分析模型,以探索设计空间、资源估计和性能。三个有代表性的应用利用应用应用了应用系统应用系统的关键特征,以加速高性能水平的计算技术,如批量和空间阻截/调节等,其动机是增加真实世界工作负荷的量和空间阻塞量;(2) 开发和使用预测性分析模型来探索设计空间、资源估计和性能的预测性能模型。 三个有代表性的应用利用XLininx Alvex Alveveo 设计流程,其最佳运行性业绩表现为GFPA的S-CS-Scial Scial Scial Streal Supal 应用,其最新版本,其高性预算执行,其最高性预算,其最高性能结构比性能性能性能性能性能结构比性能性能性能性能比性能为GFA-FA-FA-S-S-S-S-S-S-S-S-S-S-S-S-S-S-SDisal-S-SDisal-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
319+阅读 · 2020年11月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
71+阅读 · 2020年4月7日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
最前沿的深度学习论文、架构及资源分享
深度学习与NLP
13+阅读 · 2018年1月25日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Statistical EL is ExpTime-complete
Arxiv
0+阅读 · 2021年3月5日
Arxiv
0+阅读 · 2021年3月5日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
最前沿的深度学习论文、架构及资源分享
深度学习与NLP
13+阅读 · 2018年1月25日
前端高性能计算(4):GPU加速计算
前端大全
7+阅读 · 2017年10月26日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员