报告主题:Modular convolution considered beneficial
报告摘要:
miOpen包含性能关键的GPU内核,在AMD的ROCm平台上驱动机器学习的工作负载。Jack Chung、Chao Liu和Daniel Lowell探索了如何将它们制作成模块,这样它们就可以很容易地为来自AMD的各种GPU硬件进行调整,并与TensorFlow XLA等图形编译器紧密结合。他们展示了各种卷积算法是如何在AMD的硬件上实现的,如何将它们分解成模块,如何被XLA提取和融合,以及如何执行。
邀请嘉宾:
郑文衡(Jack Chung)是AMD的PMTS软件开发工程师,他从ROCm堆栈的早期开始就在那里工作。他有编译器前端、优化传递和高级语言的运行时方面的经验。他的重点是TensorFlow XLA。
Chao Liu是AMD的一名软件开发人员,他在AMD从事开源高性能深度学习库miOpen的工作。他的兴趣包括开发并行算法和各种应用的数值方法,包括深度学习和基于物理的仿真。在此之前,他开发了计算流体动力学、有限元分析、迭代求解和网格生成等技术。
Daniel Lowell是AMD的深度学习GPU内核库miOpen的团队领导和软件架构师。在此之前,他曾在AMD的高性能计算(HPC)领域从事编译技术和可靠性方面的研究。他的兴趣包括深度学习、脑机接口、自动代码生成和高性能计算。