业界 | AMD的GPU现在可以加速TensorFlow深度学习了

2018 年 8 月 29 日 机器之心

机器之心报道

机器之心编辑部

参与：刘晓坤、李泽南、王淑婷

近日，AMD 宣布推出适用于 ROCm GPU 的 TensorFlow v1.8 接口，其中包括 Radeon Instinct MI25。AMD 称，这是该公司在实现深度学习加速上的重要里程碑。ROCm 即 Radeon Open Ecosystem，是 AMD 在 Linux 上的开源 GPU 计算基础环境。这次的 TensorFlow 实现使用了 MIOpen——一个适用于深度学习的优化 GPU 例程库。

目前，AMD 的深度学习加速解决方案已经官方支持 TensorFlow 和 Caffe 两种框架。

AMD 提供了一个预构建的 whl 包，使安装变得像 Linux 通用 TensorFlow 的安装那样简单。AMD 已经发布了安装说明以及一个预构建的 Docker 映像。

除了支持 TensorFlow 1.8，AMD 目前还在致力于对 TensorFlow 主存储库进行所有针对 ROCm 的强化。其中一些补丁已经在上游合并，另外几个正在积极审查中。在全面更新增强功能时，AMD 还将发布和维护未来支持 ROCm 的 TensorFlow 版本，如 v1.10 版。

AMD 相信深度学习的优化、可便携性以及可扩展性的未来在于特定领域编译器的基础之上。其开发者受到 XLA 早期结果的启发，正在朝着为 AMD GPU 开放和优化 XLA 的方向发展。

有关 AMD 深度学习加速的更多内容可参照：www.amd.com/deeplearning

2017 年，AMD 发布了 ROCm 平台，开始为开发者提供深度学习支持。同时，这家公司也开源了高性能机器学习库 MIOpen。

准备能运行 ROCm 和 docker 的机器

以下教程假定了使用全新的机器来准备 ROCm+Docker 环境；除了典型的库存包（stock package）更新以外，不需要安装额外的软件。

最新的公开 docker.re 发布，18.02 版本已知在 docker 镜像下与非根账户共同使用时存在缺陷。请使用以下 deb 包更新 docker 包到 18.04 版本。

安装包：https://download.docker.com/linux/ubuntu/dists/xenial/pool/nightly/amd64/docker-ce_18.04.0~ce~dev~git20180315.170650.0.8fabfd2-0~ubuntu_amd64.deb

首先推荐安装 ROCm 内核，ROCm KFD 按 DKMS 模块的方式分布，适用于 ROCm1.7.0 后的版本。AMD 推荐尽量升级到最新的通用内核。更新的内核通常能够更好地支持 AMD 硬件，并且库存视频分辨率和硬件加速性能也通常会得到改善。同时，ROCm 已经官方支持了 Ubuntu 和 Fedora Linux 分布。以下的 asciicast 展示了在 Ubuntu16.04 上更新内核。更多的细节可以在 Radeon Open Computer 网站上找到。

在 Ubuntu 上安装 ROCK 内核：https://github.com/RadeonOpenCompute/ROCm#debian-repository---apt-get

第1步：安装 ROCm 内核

你需要键入（或复制）如下命令：

# OPTIONAL, upgrade your base kernel to 4.13.0-32-generic, reboot required
sudo apt update && sudo apt install linux-headers-4.13.0-32-generic linux-image-4.13.0-32-generic linux-image-extra-4.13.0-32-generic linux-signed-image-4.13.0-32-generic
sudo reboot 
# Install the ROCm rock-dkms kernel modules, reboot required
wget -qO - http://repo.radeon.com/rocm/apt/debian/rocm.gpg.key | sudo apt-key add -echo deb [arch=amd64] http://repo.radeon.com/rocm/apt/debian/ xenial main | sudo tee /etc/apt/sources.list.d/rocm.list
sudo apt-get update && sudo apt-get install rock-dkms
sudo update-initramfs -u
sudo reboot
# Add user to the video group
sudo adduser $LOGNAME video

确保在安装 ROCm 内核包后重启计算机，以强制新内核在重启时加载。你可以通过在提示符下键入以下命令来验证是否加载了 ROCm 内核：

lsmod | grep kfd

在屏幕上打出的内容应该如下：

amdkfd                270336  4
amd_iommu_v2           20480  1 amdkfd
amdkcl                 24576  3 amdttm,amdgpu,amdkfd

第 2 步：安装 docker

确认过新核正在运行之后，下一步就是安装 docker 引擎。可以在 docker 的网站上找到安装 docker 的手册，但可能最简单的方法时使用 docker 自己的 bash 脚本。如果允许在你的机器上运行从互联网下载的 bash 脚本，打开一个 bash 提示符并执行以下命令行：

curl -sSL https://get.docker.com/ | sh

用上面的脚本查看 Linux 发行版和安装的内核，并正确安装 docker。脚本将在 ROCm 平台上输出一条警告消息，表明它不能识别 ROCm 内核；这个是正常的，可以忽略。脚本可在无法识别内核的情况下进行正确的 docker 安装。

第 3 步：验证/更改 docker 设备存储驱动程序

sudo docker info

docker 设备存储驱动程序管理 docker 如何访问图像和容器。docker 官网上可以找到很多关于存储驱动程序架构的文档和详细描述。通过在命令提示符下发出 sudo docker info 命令并查找「Storage Driver:」输出，可以检查哪个存储驱动程序正被 docker 使用。我们很难预测安装时存储驱动程序 docker 会选择什么作为默认值，默认值会随着时间的推移而变化，但在经验中，我们发现尺寸较大的图像会遇到 devicemapper 存储驱动程序问题。它对图像和容器的最大尺寸施加了限制。如果你在「大数据」领域工作，如在深度神经网络的应用中，devicemapper 限制了 10GB 的默认值。如果遇到此限制，有两个选项可用：

1. 切换到其他存储驱动

AMD 推荐使用「overlay2」，它的环境依赖与 ROCm 内核相符，所以可以适用。

overlay2 可提供无限制的图像尺寸

如果不能使用「overlay2」，你可以在启动服务时间的时候通过 storage-driver=<name>选项选择存储驱动

2. 如果你必须使用「devicemapper」，请在服务启动时传递「devicemapper」配置变量——dm.basesize，以增加潜在图像的最大值。

在创建和使用「devicemapper」图像后切换到「overlay2」存储驱动程序的缺点是需要重新创建现有图像。因此，AMD 建议在进行重要工作前验证是否使用「overlay2」存储驱动程序设置了 docker。

第 4 步 A：使用 docker CLI 构建 ROCm 容器

clone 并构建容器

git clone https://github.com/RadeonOpenCompute/ROCm-dockercd ROCm-docker
sudo docker build -t rocm/rocm-terminal rocm-terminal
sudo docker run -it --device=/dev/kfd --device=/dev/dri --group-add video rocm/rocm-terminal

（可选）第 4 步 B：使用 docker-compose 构建 ROCm 容器

使用 docker-compose clone 和构建容器：

git clone https://github.com/RadeonOpenCompute/ROCm-dockercd ROCm-docker
sudo docker-compose run --rm rocm

第 5 步：验证 ROCm-docker 容器是否成功构建

验证基于工作容器的 ROCm 软件堆栈
在第 2 步和第 3 步之后，应该有一个对正在运行的 docker 容器的 bash 登录提示

hcc --version应该显示 AMD 异构编译器的版本信息

执行示例应用程序

cd /opt/rocm/hsa/sample
sudo make
./vector-copy

显示成功创建 GPU 设备、内核编译和成功关闭的文本应该打印至 stdout

参考内容：

https://medium.com/tensorflow/amd-rocm-gpu-support-for-tensorflow-33c78cc6a6cf

https://github.com/RadeonOpenCompute/ROCm-docker

本文为机器之心报道，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

AMD

关注 3

超威半导体公司（英语：Advanced Micro Devices, Inc.，简称AMD）是一家专注于微处理器与图形处理器设计和生产的跨国公司，总部位于美国加州旧金山湾区硅谷内的Sunnyvale。

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

95+阅读 · 2020年6月8日

Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020）PPT

专知会员服务

183+阅读 · 2020年3月16日

重磅｜2020ScaledML会议众多业界大拿演讲合辑：谷歌TensorFlow，微软ML，Pytorch,伯克利(附PPT）

专知会员服务

36+阅读 · 2020年3月16日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【2020新书】JavaScript神经网络在TensorFlow.js中的深度学习，561页pdf

专知会员服务

104+阅读 · 2020年2月4日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【电子书推荐】在谷歌云平台上构建机器学习和深度学习模型，703页pdf，一个全面的初学者指南

专知会员服务

41+阅读 · 2020年1月2日

【Amazon AWS】深度学习编译器（Deep Learning Compiler），附35页ppt

专知会员服务

43+阅读 · 2019年11月5日

教程 | 从零开始搭建『深度学习』GPU开发环境

机器学习算法与Python学习

8+阅读 · 2019年10月28日

OpenCV 3.0 三年半后，OpenCV 4.0 终于出炉

Python开发者

5+阅读 · 2018年12月1日

干货 | 深度学习入门指北——从硬件到软件

AI科技评论

3+阅读 · 2017年11月22日

10个深度学习软件的安装指南（附代码）

数据派THU

17+阅读 · 2017年11月18日

从硬件配置到框架选择，请以这种姿势入坑深度学习

机器之心

4+阅读 · 2017年11月17日

终于！谷歌移动端深度学习框架 TensorFlow Lite 正式发布

开源中国

3+阅读 · 2017年11月16日

前端高性能计算（4）：GPU加速计算

前端大全

7+阅读 · 2017年10月26日

23种深度学习库排行榜：TensorFlow、Keras、caffe占据前三！

全球人工智能

5+阅读 · 2017年10月24日

论文导读 | OpenCL版Caffe：高速跨平台机器学习框架

AI前线

4+阅读 · 2017年10月15日

从零开始：深度学习软件环境安装指南

机器之心

6+阅读 · 2017年10月2日

TF-Ranking: Scalable TensorFlow Library for Learning-to-Rank

Arxiv

5+阅读 · 2019年5月17日

Training Generative Adversarial Networks Via Turing Test

Arxiv

3+阅读 · 2018年10月25日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

Quantizing deep convolutional networks for efficient inference: A whitepaper

Arxiv

6+阅读 · 2018年6月21日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

TBD: Benchmarking and Analyzing Deep Neural Network Training

Arxiv

3+阅读 · 2018年3月16日

CuLDA_CGS: Solving Large-scale LDA Problems on GPUs

Arxiv

3+阅读 · 2018年3月13日

MXNET-MPI: Embedding MPI parallelism in Parameter Server Task Model for scaling Deep Learning

Arxiv

4+阅读 · 2018年1月11日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员