【深度学习】深度学习入门概览，如何从小白到发表论文

会员服务 ·

【深度学习】深度学习入门概览，如何从小白到发表论文

2017 年 8 月 10 日 产业智能官 马索萌

作者：马索萌

链接：https://zhuanlan.zhihu.com/p/28305209

来源：知乎

▼

之前我写过一篇文章，关于深度学习如何入门。之后我发现还是有不少同学私信问我深度学习入门的事情，今天我就在原答案基础上扩展着讲讲。

首先回答一个不少人问我的问题，深度学习能用来干什么？

深度学习可以说是这一代人工智能的核心，驱动着现在最先进的计算机视觉系统，比如图像分类、物体检测识别等等。推荐算法、语音识别、自然语言处理、决策制定这些事情也有越来越多的深度学习。

图像的语义分割：

如何入门深度学习

在我看来，深度学习的学习研究分为三个阶段：基础知识 => 解决实际问题 => 发明创造。

阶段零：准备工作

要想学习深度学习，我认为首先得至少熟悉一门编程语言，最好是 Python。不然无法上手实验，容易变成纸上谈兵。

硬件方面，建议有一台计算力较强的电脑，显卡使用 NVIDIA GTX1070 以上。深度学习对内存（显存）和计算量的要求很大，低于这个配置会导致很多经典模型无法运行（比如吃显存的 VGG Net）。

此外，如果想要对深度学习的理论有详细的理解，需要一定的数学基础。高中数学加上微积分的基本知识（求导、链式法则）完全可以帮助你起飞。更好的数学基础可以让你在理解复杂模型、复杂的优化算法上游刃有余，但理解基础理论不需要太高深的数学。

最后，一个良好的心态可以帮助你更快地学习。深度学习并不困难，它的核心简单优美，相信自己可以掌握它。

阶段一：基础知识

没有什么比看一本简明扼要的薄书更容易入门。深度学习的资料非常多，但这也成为了深度学习坑最大的地方，学习者很容易迷失在各种资料当中，最后只看了个皮毛。所以，我认为学习深度学习一开始就要盯着你挑选的那么一两个资料学习，最多不要同时看三本书。所以下面我只给出两本书。

我推荐的第一本书Neural networks and deep learning ，它足够薄，但深入浅出，兼顾了深度和难度，将深度学习的核心讲述的很清晰，还附带完善的代码实践，可谓入门的不二之选。这本书先是引入了最原始最简单的神经元和神经网络的概念，然后一步步引出全连接网络、激活函数、反向传播、优化方法、卷积神经网络等深度学习中最基本的内容，然后还给出一个视觉上的（非严格的）证明，神经网络可以计算任意函数（严格来讲，是有限制条件的）。书中还有大量的配图（其中还有很多可交互的动图），非常有助于理解。

这本书对应的是作者自己的 python 代码，自己从头实现一个神经网络非常有助于理解。这本书真正做到了深入浅出，在不失理论深度的同时让难度变得很低。下图就是它展示改进学习方法的一个例子，你甚至可以在浏览器里面改变参数的值然后点击右下角的按钮立马看到反馈效果，看到 cost 曲线是如何下降的。比较遗憾的是此书目前没有中文版，所以需要一定的英语阅读理解能力。

第二本更厚也更系统的书是Deep Learning ，这本书目前已经出了中文版。相比于前一本书，这本书有更多细节，数学也更多，既可以当做教材也可以当做参考资料。这本书可以在看完第一本之后看也可以直接看。

第一个阶段花费的时间因人而异，每个人基础不同，从两个星期到几个月都有可能。

阶段二：运用深度学习解决实际问题

在学习基础知识之后，就可以着手解决具体的问题，有以下几件事情可以做

找一个好用的主流框架（推荐 Pytorch），把教程和示例代码跑一遍。然后使用这套框架去解决你感兴趣的问题，比如在你自己的数据集上训练物体识别。

阅读经典的论文并重复实验。自己去复现经典论文的算法非常有助于理解。

将算法融入一个应用当中，比如可以用人脸检测识别算法做一个老板来了的报警器，嘿嘿。或者将深度学习算法融合到手机当中。

这个阶段你可能会遇到大量的问题，这个时候你需要发挥搜索引擎的作用，不断地搜索，不断地阅读，最终解决问题。我常去各个官方文档、技术论坛、Stack Overflow 和博客上阅读资料。经历了这个过程，你所学的理论知识将得到检验，你将成为一名熟练的深度学习工程师。

阶段三：发明创造

最后一个阶段就是突破前人的领域。在熟悉深度学习之后，你会发现前人的理论有大量解决不了的问题，前人的工具可能并不是100%称手。所以你需要创造出自己的新知识、新工具，分为两个方面：

1、理论创新，解决前人解决不了的问题，或者更好地解决问题，提出新的认识世界的方法。要在理论上有所突破，一个常规的方法是找一个专门的问题开始钻研，不断地试验自己的想法，前人没有的想法。同时阅读这个领域最新的文章，尝试实现。比如你可以挑物体检测这个问题，既然你对于理论和实践都已经比较熟练了，你完全可以开始修改别人的网络架构，改变训练的模式，尝试把先验信息加进来。总之，有很多的玩法都可以实验。说不定玩着玩着就能写一篇文章出来发表。

2、工程创造，实现自己的深度学习框架。曾经看过一个观点，轮子不需要被重新发明，但需要重新创造。理论上的东西，发现一次就够了，但是工程实现在一次次的迭代中完善进步。对于深度学习，可以尝试实现一个自己的深度学习框架。目前深度学习离不开 c/c++ 和 cuda，所以你可以从头写一个 c/c++ 版本的，把坑自己踩一遍，这样工程能力肯定大为提高。或者，你也可以利用现有框架的后端实现一个前端，这样你对于这些框架后端的理解也能够大为提高。且你的所有的想法都可以写进这个前端里面。比如 pytorch 就是用 torch 的后端实现了一个 python 的前端，而且相比于原版的 torch 有了很多改进。

关于发表论文

论文是用来向世界展示你的成果的，所以发表论文的第一要素是你有创新点，可以是你完成了新的实验、提出了新的理论、创造了新的工具等等。计算机视觉是一门偏应用的学科，最常规的发论文方法就是

1、选择一个你想要解决的问题；

2、调研已有的解决方法和它们的缺陷；

3、改进解决问题的方法，改进效果，提高准确率；

4、总结自己的方法，写成论文。

新一代技术+商业操作系统：AI-CPS OS

在新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生，在行业、企业和自身三个层面勇立鳌头。

数字化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置。

分辨率革命：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊化：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大，一切都几乎变得不确定，即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）颠覆性的数字化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位。

如果不能在上述三个层面保持领先，领导力将会不断弱化并难以维继：