一门面向所有人的人工智能公开课：MIT 6.S191，深度学习入门

2018 年 4 月 8 日 机器之心

选自Medium

机器之心编译

参与：黄小天、李泽南

对初学者来说，有没有易于上手，使用流行神经网络框架进行教学的深度学习课程？近日，麻省理工学院（MIT）正式开源了在线介绍性课程「MIT 6.S191：深度学习入门」。该课程包括一系列有关神经网络及其在序列建模、计算机视觉、生成模型和强化学习等方面的基本应用知识。

课程链接：http://introtodeeplearning.com/

课程视频：https://www.youtube.com/watch?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&v=JN6H4rQvwgY
课程 GitHub：https://github.com/aamini/introtodeeplearning_labs

MIT 6.S191： MIT 关于深度学习算法及其应用的官方入门课程

MIT 6.S191 不仅仅是一门深度学习课程系列。在设计它时，我们希望做的更多。我们想要听众具备必须的实践技能，部署自己的深度学习模型，并将其应用到课程之外倍感兴奋、深受启发的问题上。

因此，在这门课程的教学中，我们选用了 TensorFlow。我们设计了两个基于 TensorFlow 的软件 lab 作为演讲课程的补充，一个是通过循环神经网络聚焦于音乐生成，另一个则专注于医疗图像的气胸检测。

MIT 6.S191 的课程设计原则是尽可能地易于上手，不仅针对于不同背景不同水平的人，也针对于 MIT 社区内外的人。

相应地，首个 lab 介绍 TensorFlow 基础——构建和执行计算图、sessions 以及在深度学习中常用的一般操作，同样也会重点介绍 TensorFlow 最新的重大更新：Eager mode。

这些背景知识有助于学生在 TensorFlow 中构建音乐生成和气胸检测模型。

通过 RNN 生成音乐

循环神经网络（RNN）多是应用于序列建模和预测任务，诸如从股票趋势到自然语言处理，再到医疗信号识别（比如心电图），范围异常广泛。你可以查看课程中的深度序列建模一节以了解 RNN 及其应用的相关背景知识。

RNN 同样适用于音乐生成，可以捕捉时序数据中的依赖关系。在第一个 lab 中，学生致力于编码音乐文件数据集，界定 TensorFlow 中的 RNN 模型，并从中采样以生成全新的音乐。

音乐生成 RNN 模型

该数据集是一个流行音乐片段的集合，被编码成向量格式以馈送给 RNN 模型。一旦数据被处理，下一步则是使用该数据集定义和训练 RNN 模型。

该模型基于单个 LSTM 模块，其中状态向量追踪两个连续节点之间的时间依赖关系。在每一时间步，先前节点的序列被馈送进模块，LSTM 最后单元的最后输出馈送给全连接层。因此在先前所有时间步的节点给定的情况下，我们可以输出下一节点在时间步 t 上的概率分布。下图是这一过程的可视化。

预测序列中下一音乐节点的可能性

我们为学生提供构建 RNN 模型并定义合适的计算图的指导。再次，我们已经设计这些 lab，供有兴趣的人使用，不管其有无 TensorFlow 经验。

该 lab 首先致力于设置相关超参数，定义占位符变量，初始化 RNN 模型的权重。学生接着定义其自己的 RNN(input_vec, weights, biases)，它接受相应的输入变量并定义一个计算图。

Lab 允许学生试验不同的损失函数，优化方案，甚至是准确度指标：

  
    
    
    
   
     
     
     loss_op = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
   
     
     
         logits, labels))
   
     
     
     optimizer = tf.train.AdamOptimizer(learning_rate)
   
     
     
     true_note = tf.argmax(output_vec,1)  # identify the correct note
   
     
     
     pred_note = tf.argmax(prediction, 1) # identify the predicted note
   
     
     
     correct_pred = tf.equal(pred_note, true_note) # compare!

生成新音乐

乐趣并不止于构建和训练 RNN！毕竟，该 lab 是关于音乐生成——剩下的是使用 RNN 实际地创建新音乐。

该 Lab 指导学生把一个种子馈送给已训练的模型（毕竟如果没有什么开始的话，它无法预测任何新的音符！），接着使用已训练的 RNN 迭代地预测每一个连续的音符。这相当于从 RNN 在每个时间步输出的下一个音符的概率分布中随机抽样，然后使用这些样本生成一首新歌。

像以前一样，我们只给学生一个指导架构，定义采样由其自己决定。

为了提供已生成歌曲的一个采样，我们继续并训练模型，接着从中采样生成新歌。试听一下由已训练模型生成的一个实例：https://soundcloud.com/alexanderamini/mit-6s191-rnn-song。

生成更多逼真的音乐

你很可能已发现，这里还有大量的提升空间。我们希望学生继续通过我们提供的框架，调试超参数，扩充数据集来生成更加悦耳的音乐。

气胸检测

第二个 lab 补充了课程中用于计算机视觉的深度学习一节。学生有机会在逼真的医疗图像数据集上使用 CNN 检测疾病。特别地，学生使用一组真实的胸部 X 射线构建模型，检测和分类被预测有气胸的扫描，这种情况发生在肺与胸壁之间的空气量异常的情况下。

我们把这一 lab 推进到分类之外，以尝试解决可解释性的问题——什么是反映网络为什么和如何把一个特定类别标签分配给指定图像的量化指标。为解决这一问题，学生部署了一项称之为类别激活映射的特征可视化技术，以获得对区分性图像区域的理解。

数据集

在这里，我们使用了 ChestXRay 数据集的一个子集。顾名思义，这是一个大型 X 射线胸透照片数据集，并标有相应的诊断信息。

鉴于它是一个基于真实世界信息的数据集，其中含有大量噪音。在这里，我们希望让学生们能够使用真实的数据，以便了解包装和注释数据会面临的挑战——特别是在计算机视觉的背景下。

CNN 模型

学生们将使用与训练的 CNN 模型展开气胸疾病检测任务；在这里，我们不会让神经网络保持黑箱状态，而是会提供模型和训练模型调用的代码，并希望以此能够让学习者充分参与整个实验。此外，lab 还将实现成本和预测函数，以及 CNN 分类器的评估指标（如 ROC 曲线）。

用于气胸检测的 CNN 架构

用 CAM 解释 CNN 的输出

这一 lab 的主要目的是应用类激活图（CAM）来解释 CNN 的输出。虽然目前已有很多用于图像分类的 CNN 模型资源，但我们发现很少有介绍可解释性的 lab。但对于初学者而言，认识并接受深度学习局限性是非常重要的——这些都是本 lab 的一部分，也是整个课程的一部分。将 CAM 结合到实验中也为学生们提供了阅读和上手实践最新研究成果的机会，这会是一种非常有意义的体验。

CAM 是一种可视化图片在 CNN 中最后的卷积层上被「注意」区域的方法。请注意，CAM 可视化适用于在最终全连接层之前具有全局平均池化层的架构，其中我们输出最后一个卷积层上每个单元的特征映射的空间平均值。

CAM 有效地高亮了输入图像中分配特定类别标签最重要的部分。也可以直观地说：一个类的 CAM 是基于每个特征图，将图像分配给该类的重要性。CNN 中的特征映射反映了图像中特定视觉图案（即特征）的存在。我们通过对特征映射的重要性加权的特征映射和来计算 CAM。因此，在重要信道中具有更大激活的输入图像的区域在 CAM 中被赋予了更大的权重，因此显得「更热」。

在气胸分类器的背景下，这相当于强调胸透照片中识别（或未识别到）气胸最为重要的那些像素。

最终特征图上的类激活映射

为了进行具体说明，我们让 F_k 代表 k-th 在卷积神经网络最后一个卷积层上的特征图，然后让 w_k 代表 k-th 在特征凸和全连接层上的权重。于是，用于气胸检测的类激活图为：

在对最终的类激活图进行上采样以后，我们可以把胸透照片中与气胸检测最相关的区域可视化（至少是从神经网络的角度看）。

该 lab 从头到尾演示了 CAM 在 TensorFlow 中计算和可视化的整个过程。学生们需要定义函数来提取特征图，计算 CAM 的权重：

  
    
    
    
   
     
     
     (feature_maps, dense_weights) = extract_features_weights(model)

在这里，学生们需要将从最后的卷积层中提取的 Feature_maps 输入，并从全连接层 dense_weights 输入到 CAM 计算的函数中，然后定义上采样过程。

气胸阳性的胸透照片类激活图

正如气胸阳性的胸透照片示例所展示的那样，CAM 最终可以可视化为一张热图。

或许这个 lab 最有意思的部分是它所引发的讨论。学生们需要仔细研究模型对输入胸透照片进行错误分类的实例，CAM 在这些实例中的样子，并思考自己可以对模型做出哪些修改来突破这些限制。构建一种可以「窥探」神经网络内部运行机制的算法可以帮助激发学生们的好奇心，并让他们体会到机器学习中可解释性的重要性。

以上这些教学 Lab 都是 MIT 6.S191 系列课程所独有的，授课者为本课程进行了专门设计。目前，所有 MIT 6.S191 课程的视频都可以在网上免费观看了。

原文链接：https://medium.com/tensorflow/mit-6-s191-introduction-to-deep-learning-24994d705aca

IJCAI2018 阿里妈妈国际广告算法大赛于 2018 年 2 月正式启动，获奖队伍将有机会前往斯德哥尔摩参加 IJCAI2018。点击阅读原文参与报名。

登录查看更多

相关内容

RNN

关注 7

RNN:循环神经网络，是深度学习的一种模型。

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

168+阅读 · 2020年6月30日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

麻省理工MIT2020深度学习导论课程6.S191，10大前沿主题：序列建模、生成模型、强化学习、GNN、对抗学习等，不得不看

专知会员服务

148+阅读 · 2020年2月2日

【新书】傻瓜式入门深度学习，371页pdf

专知会员服务

194+阅读 · 2019年12月28日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

148+阅读 · 2019年12月25日

【麻省理工学院课程】MIT 6.S191：Introduction to Deep Learning , 深度学习导论,NSF研究员Alexander Amini

专知会员服务

35+阅读 · 2019年11月2日

【麻省理工学院课程】MIT 6.S094: Deep Learning for Self-Driving Cars，深度学习和自动驾驶课程

专知会员服务

52+阅读 · 2019年11月1日

【课程】《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知会员服务

84+阅读 · 2019年10月29日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

PyTorch深度学习零基础入门《First steps towards Deep Learning with pyTorch》

专知会员服务

120+阅读 · 2019年10月28日

【赠书】TensorFlow自然语言处理

AINLP

17+阅读 · 2019年7月14日

中文课程！台大李宏毅机器学习公开课2019版上线

全球人工智能

14+阅读 · 2019年3月18日

Tensorflow官方视频课程-深度学习工具 TensorFlow入门

深度学习与NLP

12+阅读 · 2019年3月12日

MIT深度学习基础-2019视频课程分享

深度学习与NLP

10+阅读 · 2019年2月7日

MIT 深度学习基础教程：七个基本框架TensorFlow代码实战

专知

8+阅读 · 2019年2月5日

全网独家！2018 MIT 6.S094 中文译版「深度学习和自动驾驶课」

AI科技评论

7+阅读 · 2018年4月13日

学界 | MIT深度学习课程全部视频及课件开放

大数据文摘

7+阅读 · 2018年2月20日

麻省理工学院-2018年最新深度学习算法及其应用入门课程资源分享

深度学习与NLP

6+阅读 · 2018年2月16日

终于！吴恩达deeplearning.ai第5课开课了：敲黑板序列模型

机器之心

3+阅读 · 2018年2月1日

这篇不是专访，是吴恩达 Deeplearning.ai 深度学习系列课程表

机械鸡

4+阅读 · 2017年8月9日

Learning Dynamic Routing for Semantic Segmentation

Arxiv

8+阅读 · 2020年3月23日

Associatively Segmenting Instances and Semantics in Point Clouds

Arxiv

5+阅读 · 2019年2月28日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

Nocaps: novel object captioning at scale

Arxiv

6+阅读 · 2018年12月20日

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

Video Object Detection with an Aligned Spatial-Temporal Memory

Arxiv

4+阅读 · 2018年7月27日

Automatically Designing CNN Architectures for Medical Image Segmentation

Arxiv

10+阅读 · 2018年7月19日

Fine-grained Video Classification and Captioning

Arxiv

7+阅读 · 2018年4月24日

Deep learning and its application to medical image segmentation

Arxiv

6+阅读 · 2018年3月23日

AspEm: Embedding Learning by Aspects in Heterogeneous Information Networks

Arxiv

7+阅读 · 2018年3月5日

VIP会员