如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs - 专知VIP

会员服务 ·

10

Maggie Zhang · Nathan Luehr · Josh Romero · Pooya Davoodi · Davide Onofrio ·

2019 年 12 月 29 日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

简介：

Maggie Zhang，Nathan Luehr，Josh Romero，Pooya Davoodi和Davide Onofrio深入研究了用于加速深度学习训练和推理的通用深度学习和机器学习工作负载的技术。通过本教程将了解DALI如何消除现实应用中的I/O和数据处理瓶颈，以及自动混合精度（AMP）如何轻松地在Volta GPU上的训练性能提高3倍。您将看到使用Horovod进行多GPU和多节点扩展的最佳实践。他们使用深度学习探查器来可视化TensorFlow操作并确定优化机会。本教程将教读者学习使用TensorRT（TRT）中的INT8量化来部署这些训练有素的模型，所有这些都将在TensorFlow框架的新型便捷API中进行。

嘉宾介绍：

Maggie Zhang是NVIDIA的深度学习软件工程师，她在深度学习框架上工作。她获得了澳大利亚新南威尔士大学的计算机科学与工程博士学位。她的研究方向是GPU和CPU异构计算，编译器优化，计算机体系结构和深度学习。

Nathan Luehr是NVIDIA的一名高级开发人员技术工程师，他致力于加速深度学习框架。他拥有斯坦福大学的博士学位，在那里他致力于加速GPU上的电子结构计算。

Josh Romero是NVIDIA的一名开发技术工程师。他在GPU计算方面拥有丰富的经验，从移植和优化高性能计算（HPC）应用程序到深度学习的最新工作。 Josh拥有斯坦福大学的博士学位，其研究重点是开发新的计算流体动力学方法以更好地利用GPU硬件。

Pooya Davoodi是NVIDIA的高级软件工程师，致力于在NVIDIA GPU上加速TensorFlow。之前，Pooya从事Caffe2，Caffe，CUDNN和其他CUDA库的研究。

Davide Onofrio是NVIDIA的高级深度学习软件技术营销工程师。他专注于NVIDIA的面向开发人员的深度学习技术开发和演示。 Davide在生物识别，VR和汽车行业的计算机视觉和机器学习工程师方面拥有多年经验。他在米兰理工大学获得了信号处理博士学位。

成为VIP会员查看完整内容

61

相关内容

Maggie Zhang

Maggie Zhang是NVIDIA的一名深度学习软件工程师，工作是开发深度学习框架。她在澳大利亚新南威尔士大学获得了计算机科学和工程博士学位。研究背景包括GPU和CPU异构计算、编译器优化、计算机架构和深度学习。

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

专知会员服务

94+阅读 · 2020年3月14日

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

专知会员服务

95+阅读 · 2020年1月9日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【KDD2019|讲座推荐】从生产规模神经网络中发现知识的统计学习方法：Statistical Mechanics Methods for Discovering Knowledge from Production-Scale Neural Networks

【KDD2019|讲座推荐】从生产规模神经网络中发现知识的统计学习方法：Statistical Mechanics Methods for Discovering Knowledge from Production-Scale Neural Networks

专知会员服务

18+阅读 · 2019年12月4日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知会员服务

50+阅读 · 2019年11月25日

【课程推荐】理科学校的深度学习（Deep Learning for Science School）

【课程推荐】理科学校的深度学习（Deep Learning for Science School）

专知会员服务

16+阅读 · 2019年11月10日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

【课程】伯克利2019全栈深度学习课程（附下载）

【课程】伯克利2019全栈深度学习课程（附下载）

专知会员服务

57+阅读 · 2019年10月29日

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

PaperWeekly

6+阅读 · 2019年7月15日

DLI精选课程 | 用 CUDA C/C++ 优化 GPU 显存（内文有礼）

DLI精选课程 | 用 CUDA C/C++ 优化 GPU 显存（内文有礼）

英伟达NVIDIA中国

8+阅读 · 2019年5月10日

如何用TF Serving部署TensorFlow模型

如何用TF Serving部署TensorFlow模型

AI研习社

26+阅读 · 2019年3月27日

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

英伟达NVIDIA中国

6+阅读 · 2019年3月8日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

量子位

8+阅读 · 2019年1月12日

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

新智元

6+阅读 · 2018年7月17日

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

PaperWeekly

10+阅读 · 2018年6月4日

【干货】Batch Normalization: 如何更快地训练深度神经网络

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

2018斯坦福CS 20深度学习Tensorflow实战课程（附PPT下载）

2018斯坦福CS 20深度学习Tensorflow实战课程（附PPT下载）

专知

28+阅读 · 2018年1月13日

Resolution Adaptive Networks for Efficient Inference

Arxiv

5+阅读 · 2020年3月16日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Training Generative Adversarial Networks Via Turing Test

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

BlockDrop: Dynamic Inference Paths in Residual Networks

Arxiv

6+阅读 · 2018年3月30日

A Framework for Evaluating 6-DOF Object Trackers

Arxiv

6+阅读 · 2018年3月28日

Why not be Versatile? Applications of the SGNMT Decoder for Machine Translation

Arxiv

3+阅读 · 2018年3月20日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

VIP会员

相关主题

相关VIP内容

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

【2020新书】如何成为一名专业的数据科学家？352页pdf，Build a Career in Data Science

专知会员服务

94+阅读 · 2020年3月14日

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

专知会员服务

95+阅读 · 2020年1月9日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【KDD2019|讲座推荐】从生产规模神经网络中发现知识的统计学习方法：Statistical Mechanics Methods for Discovering Knowledge from Production-Scale Neural Networks

【KDD2019|讲座推荐】从生产规模神经网络中发现知识的统计学习方法：Statistical Mechanics Methods for Discovering Knowledge from Production-Scale Neural Networks

专知会员服务

18+阅读 · 2019年12月4日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知会员服务

50+阅读 · 2019年11月25日

【课程推荐】理科学校的深度学习（Deep Learning for Science School）

【课程推荐】理科学校的深度学习（Deep Learning for Science School）

专知会员服务

16+阅读 · 2019年11月10日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

【课程】伯克利2019全栈深度学习课程（附下载）

【课程】伯克利2019全栈深度学习课程（附下载）

专知会员服务

57+阅读 · 2019年10月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

PaperWeekly

6+阅读 · 2019年7月15日

DLI精选课程 | 用 CUDA C/C++ 优化 GPU 显存（内文有礼）

DLI精选课程 | 用 CUDA C/C++ 优化 GPU 显存（内文有礼）

英伟达NVIDIA中国

8+阅读 · 2019年5月10日

如何用TF Serving部署TensorFlow模型

如何用TF Serving部署TensorFlow模型

AI研习社

26+阅读 · 2019年3月27日

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

英伟达NVIDIA中国

6+阅读 · 2019年3月8日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

量子位

8+阅读 · 2019年1月12日

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

新智元

6+阅读 · 2018年7月17日

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

报名 | GPU编程入门课程：使用CUDA C/C++进行并行计算加速

PaperWeekly

10+阅读 · 2018年6月4日

【干货】Batch Normalization: 如何更快地训练深度神经网络

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

2018斯坦福CS 20深度学习Tensorflow实战课程（附PPT下载）

2018斯坦福CS 20深度学习Tensorflow实战课程（附PPT下载）

专知

28+阅读 · 2018年1月13日

相关论文

Resolution Adaptive Networks for Efficient Inference

Arxiv

5+阅读 · 2020年3月16日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Training Generative Adversarial Networks Via Turing Test

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

Arxiv

4+阅读 · 2018年7月30日

BlockDrop: Dynamic Inference Paths in Residual Networks

Arxiv

6+阅读 · 2018年3月30日

A Framework for Evaluating 6-DOF Object Trackers

Arxiv

6+阅读 · 2018年3月28日

Why not be Versatile? Applications of the SGNMT Decoder for Machine Translation

Arxiv

3+阅读 · 2018年3月20日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

微信扫码咨询专知VIP会员