英伟达工程师亲授「如何加速NVIDIA GPU上的训练、推理和机器学习应用？」108页ppt - 专知

会员服务 ·

0

英伟达工程师亲授「如何加速NVIDIA GPU上的训练、推理和机器学习应用？」108页ppt

2020 年 1 月 8 日 专知

Maggie Zhang，Nathan Luehr，Josh Romero，Pooya Davoodi和Davide Onofrio深入研究了用于加速深度学习训练和推理的通用深度学习和机器学习工作负载的技术。通过本教程将了解DALI如何消除现实应用中的I/O和数据处理瓶颈，以及自动混合精度（AMP）如何轻松地在Volta GPU上的训练性能提高3倍。您将看到使用Horovod进行多GPU和多节点扩展的最佳实践。他们使用深度学习探查器来可视化TensorFlow操作并确定优化机会。本教程将教读者学习使用TensorRT（TRT）中的INT8量化来部署这些训练过的模型，所有这些都将在TensorFlow框架的新型便捷API中进行。

地址：

https://conferences.oreilly.com/tensorflow/tf-ca-2019/public/schedule/detail/79348

嘉宾介绍：

Maggie Zhang是NVIDIA的深度学习软件工程师，她在深度学习框架上工作。她获得了澳大利亚新南威尔士大学的计算机科学与工程博士学位。她的研究方向是GPU和CPU异构计算，编译器优化，计算机体系结构和深度学习。

Nathan Luehr是NVIDIA的一名高级开发人员技术工程师，他致力于加速深度学习框架。他拥有斯坦福大学的博士学位，在那里他致力于加速GPU上的电子结构计算。

Josh Romero是NVIDIA的一名开发技术工程师。他在GPU计算方面拥有丰富的经验，从移植和优化高性能计算（HPC）应用程序到深度学习的最新工作。 Josh拥有斯坦福大学的博士学位，其研究重点是开发新的计算流体动力学方法以更好地利用GPU硬件。

Pooya Davoodi是NVIDIA的高级软件工程师，致力于在NVIDIA GPU上加速TensorFlow。之前，Pooya从事Caffe2，Caffe，CUDNN和其他CUDA库的研究。

Davide Onofrio是NVIDIA的高级深度学习软件技术营销工程师。他专注于NVIDIA的面向开发人员的深度学习技术开发和演示。 Davide在生物识别，VR和汽车行业的计算机视觉和机器学习工程师方面拥有多年经验。他在米兰理工大学获得了信号处理博士学位。

便捷查看下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“NGPU” 就可以获取《如何加速NVIDIA GPU上的训练、推理和ML应用？》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看5000+AI主题知识资料

登录查看更多

2

相关内容

Maggie Zhang

Maggie Zhang是NVIDIA的一名深度学习软件工程师，工作是开发深度学习框架。她在澳大利亚新南威尔士大学获得了计算机科学和工程博士学位。研究背景包括GPU和CPU异构计算、编译器优化、计算机架构和深度学习。

【干货书】高级应用深度学习，294页pdf

【干货书】高级应用深度学习，294页pdf

专知会员服务

154+阅读 · 2020年6月20日

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

专知会员服务

218+阅读 · 2020年6月20日

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

专知会员服务

150+阅读 · 2020年5月29日

重磅｜2020ScaledML会议众多业界大拿演讲合辑：谷歌TensorFlow，微软ML，Pytorch,伯克利(附PPT）

重磅｜2020ScaledML会议众多业界大拿演讲合辑：谷歌TensorFlow，微软ML，Pytorch,伯克利(附PPT）

专知会员服务

36+阅读 · 2020年3月16日

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

专知会员服务

95+阅读 · 2020年1月9日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知会员服务

50+阅读 · 2019年11月25日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【课程】伯克利2019全栈深度学习课程（附下载）

【课程】伯克利2019全栈深度学习课程（附下载）

专知会员服务

57+阅读 · 2019年10月29日

英伟达小姐姐Chip Huyen谈「机器学习面试经验」，附70页PPT和视频

英伟达小姐姐Chip Huyen谈「机器学习面试经验」，附70页PPT和视频

专知

3+阅读 · 2019年12月25日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

【DLIndaba2019】微软大佬带你学习深度学习基础，82页PPT

【DLIndaba2019】微软大佬带你学习深度学习基础，82页PPT

专知

23+阅读 · 2019年8月31日

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

PaperWeekly

6+阅读 · 2019年7月15日

深度学习了解一下（附53页Slides）

深度学习了解一下（附53页Slides）

专知

48+阅读 · 2019年5月20日

【干货】伯克利2019全栈深度学习课程（附下载）

【干货】伯克利2019全栈深度学习课程（附下载）

专知

26+阅读 · 2019年4月28日

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

英伟达NVIDIA中国

6+阅读 · 2019年3月8日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

新智元

6+阅读 · 2018年7月17日

Efficiently Embedding Dynamic Knowledge Graphs

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

dynnode2vec: Scalable Dynamic Network Embedding

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

15+阅读 · 2018年12月6日

Bidirectional Attention for SQL Generation

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

Horizontal Pyramid Matching for Person Re-identification

Arxiv

3+阅读 · 2018年4月30日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年4月16日

A Framework for Evaluating 6-DOF Object Trackers

Arxiv

6+阅读 · 2018年3月28日

Fictitious GAN: Training GANs with Historical Models

Arxiv

4+阅读 · 2018年3月23日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

VIP会员

相关主题

英伟达（NVIDIA）

相关VIP内容

【干货书】高级应用深度学习，294页pdf

【干货书】高级应用深度学习，294页pdf

专知会员服务

154+阅读 · 2020年6月20日

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

最新《生成式对抗网络》技术综述课程，70页ppt带你学习GAN进展

专知会员服务

218+阅读 · 2020年6月20日

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

专知会员服务

150+阅读 · 2020年5月29日

重磅｜2020ScaledML会议众多业界大拿演讲合辑：谷歌TensorFlow，微软ML，Pytorch,伯克利(附PPT）

重磅｜2020ScaledML会议众多业界大拿演讲合辑：谷歌TensorFlow，微软ML，Pytorch,伯克利(附PPT）

专知会员服务

36+阅读 · 2020年3月16日

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

【新书】高级应用深度学习，卷积神经网络和目标检测（Advanced Applied Deep Learning ，Convolutional Neural Networks and Object Detection），附294页pdf

专知会员服务

95+阅读 · 2020年1月9日

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

如何加速NVIDIA gpu上的训练、推理和ML应用？108页ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

专知会员服务

61+阅读 · 2019年12月29日

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

【NeurIPS2019教程】深度神经网络的高效处理:从算法到硬件架构

专知会员服务

61+阅读 · 2019年12月9日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知会员服务

50+阅读 · 2019年11月25日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

【课程】伯克利2019全栈深度学习课程（附下载）

【课程】伯克利2019全栈深度学习课程（附下载）

专知会员服务

57+阅读 · 2019年10月29日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中最佳的三维场景表示是什么？——从几何表示到基础模型

《多域作战兵棋推演：运用形态学分析与人工智能加强国防人员训练》

【博士论文】快速高效的归一化流及其在图像生成模型中的应用

仿生机器人技术的军事应用

相关资讯

英伟达小姐姐Chip Huyen谈「机器学习面试经验」，附70页PPT和视频

英伟达小姐姐Chip Huyen谈「机器学习面试经验」，附70页PPT和视频

专知

3+阅读 · 2019年12月25日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

【DLIndaba2019】微软大佬带你学习深度学习基础，82页PPT

【DLIndaba2019】微软大佬带你学习深度学习基础，82页PPT

专知

23+阅读 · 2019年8月31日

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

直播报名 | CUDA并行计算编程基础：如何利用GPU加速应用程序？

PaperWeekly

6+阅读 · 2019年7月15日

深度学习了解一下（附53页Slides）

深度学习了解一下（附53页Slides）

专知

48+阅读 · 2019年5月20日

【干货】伯克利2019全栈深度学习课程（附下载）

【干货】伯克利2019全栈深度学习课程（附下载）

专知

26+阅读 · 2019年4月28日

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

DLI 精选课程 | 用TensorRT 优化和部署TensorFlow模型

英伟达NVIDIA中国

6+阅读 · 2019年3月8日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

斯坦福2018秋季课程大放送！深入浅出带你玩转机器学习加速（附超全资料+PPT）

新智元

6+阅读 · 2018年7月17日

相关论文

Efficiently Embedding Dynamic Knowledge Graphs

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

dynnode2vec: Scalable Dynamic Network Embedding

dynnode2vec: Scalable Dynamic Network Embedding

Arxiv

15+阅读 · 2018年12月6日

Bidirectional Attention for SQL Generation

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

Horizontal Pyramid Matching for Person Re-identification

Arxiv

3+阅读 · 2018年4月30日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年4月16日

A Framework for Evaluating 6-DOF Object Trackers

Arxiv

6+阅读 · 2018年3月28日

Fictitious GAN: Training GANs with Historical Models

Arxiv

4+阅读 · 2018年3月23日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

朱克爱德华兹家族

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员