《Deep Learning Specialization》由 deeplearning.ai 出品,让你在了解丰富的人工智能应用案例的同时,学会在实践中搭建出最先进的神经网络模型,训练出属于你自己的 AI。
《Deep Learning Specialization》包括五门课程,从今天开始,逐步的学习第一门课程“Course 1 Neural Networks and Deep Learning”,即“神经网络和深度学习”。
本文是“神经网络和深度学习”的第一周课“深度学习概论”的读书笔记。“深度学习概论”主要包括以下部分内容:
1.1 欢迎来到深度学习工程师微专业
1.2 什么是神经网络?
1.3 用神经网络进行监督学习
1.4 为什么深度学习会兴起?
1.5 关于这门课
1.6 课程资源
1.1 欢迎来到深度学习工程师微专业
吴恩达老师希望可以培养成千上万的人使用人工智能,去解决真实世界的实际问题,创造一个人工智能驱动的社会。
基于上述目的,吴恩达老师创建了关于深度学习的公开课,供全世界的人学习。
链接:https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001702003
1.2 什么是神经网络?
“深度学习”指的是训练神经网络,有时候规模很大,那么神经网络究竟是什么呢?在这个视频中,我会讲些直观的基础知识。
我们从一个房价预测的例子开始。假设有一个六间房屋的数据集,已知房屋的面积,单位是平方英尺或平方米,以及房屋价格。想要找到一个函数,根据房屋面积来预测房价。
如果你懂线性回归,你可能会说,好吧,用这些数据来拟合一条直线。于是,你可能会得到这样一条直线。但奇怪的是,你可能也知道,价格永远不会为负,因此直线不大合适,它最后会让价格为负。我们在这里弯曲一点,让它结束于 0。这条粗的蓝线,就是你要的函数,根据房屋面积预测价格。
这里的直线拟合得很好。你也许可以把这个房屋加个拟合函数看成是一个非常简单的神经网络,你刚刚用它来拟合房屋价格。这几乎是最简单的神经网络了。
让我画在这里,我们把房屋的面积,作为神经网络的输入,称之为x。通过这个节点,这个小圈圈,最后输出了价格用y表示。这个小圆圈就是一个独立的神经元,你的网络实现了左边这个函数的功能。这个神经元所做的,就是输入面积,完成线性运算,取不小于 0 的值,最后输出预测价格。
神经网络的文献中,经常看得到这个函数。这个函数一开始是 0,然后就是一条直线。这个函数被称作 ReLU 函数,全称是“修正线性单元”。“修正”指的是取不小于 0 的值,这就是这个函数长这样的原因。不理解 ReLU 函数的话不用担心,这门课的后面你还会看到它。
这是一个单神经元网络,规模很小的神经网络。大一点的神经网络是把这些单个神经元堆叠起来形成的。你可以把这些神经元想象成单独的乐高积木,你通过搭积木来构建一个更大的神经网络。
来看一个例子,我们不仅仅用房屋的面积来预测价格,现在你还有一些房屋的其它特征,知道了一些别的信息,比如卧室的数量。你可能想到,有一个很重要的因素会影响房屋价格,就是“家庭人数”。这个房屋能住下一个三口之家,四口之家或者五口之家,这个性质和面积大小相关。还有卧室的数量,能否满足住户的家庭人数需求。
你可能知道邮编,在一些国家也被叫作邮政编码。邮编或许能作为一个特征,说明了步行化程度,这附近是不是高度步行化的?你是否能步行去杂货店,或者是学校?是否需要开车?有些人喜欢高度步行化的地方。另外还有富裕程度,在美国是这样的,其它国家也可能一样。邮编体现了附近学校的质量。
我画的每一个小圈圈,都可能是一个 ReLU,即“修正线性单元”,或者其它的不那么线性的函数。基于房屋面积和卧室数量,你可以估算家庭人口。基于邮编,可以评估步行化程度,也可以评估学校质量。最后你可能会认为,人们愿意在房屋上花费多少钱,和他们关注什么息息相关。在这个例子中,家庭人口、步行化程度以及学校质量,都能帮助你预测房屋的价格。
在这个例子中x是所有的这四个输入,y是预测的价格。通过把这些独立的神经元叠加起来,或者上一张幻灯片里面的简单的预测器(神经元),现在有了一个稍微大一点的神经网络。神经网络的部分神奇之处在于,当你实现它之后,你要做的只是输入x,就能得到输出y。不管训练集有多大,所有的中间过程它都会自己完成。
那么你实际上做的就是这样,这里有四个输入的神经网络,输入的特征可能是卧室的数量,邮政编码和周边的富裕程度。已知这些输入的特征,神经网络的工作就是预测对应的价格。
同时请注意到,这些圈圈,在一个神经网络中,它们被叫做“隐藏单元”。每个的输入都同时来自四个特征,比如说,我们不会具体说,第一个节点表示家庭人口,或者说家庭人口仅取决于特征x1和x2。我们会这么说,对于神经网络,你自己决定这个节点是什么。我们只给你四个输入特征,随便你怎么计算。因此我们说这一层,输入层,以及在中间的这一层,在神经网络中连接数是很高的。因为输入的每一个特征,都连接到了中间的每个圈圈。
值得注意的是,对于神经网络,只有你喂给它足够多的关于x和y的数据,得到足够的x、y训练样本,就非常擅长于计算从x到y的精准映射函数。这就是一个基本的神经网络,你可能发现,自己的神经网络在监督学习的环境下是如此有效和强大。也就是说,你只要尝试输入一个x,即可把它映射成y,像我们在刚才房价预测的例子中看到的。
在下一个视频中,你会看到更多监督学习的例子。有些例子会让你觉得,你的神经网络对你的应用场合非常有帮助。
链接:https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001701005
1.3 用神经网络进行监督学习
神经网络有时被媒体炒作得很厉害,考虑到它们的使用效果,有些说法还是靠谱的。事实上到目前为止,几乎所有由神经网络创造的经济价值,都基于其中一种机器学习,我们称之“监督学习”。那是什么意思呢?我们来看一些例子。
在监督学习中,输入x会习得一个函数,它映射到输出y。比如我们之前看到的,应用于房价预测的例子。输入房屋的一些特征,就能输出或者预测价格y。下面是一些其它例子,这些例子中神经网络效果拔群。
很可能,今天通过深度学习获利最大的,就是在线广告。这也许不是最鼓舞人心的,但真的很赚钱。给网站输入广告信息,网站会考虑是否给你看这个广告,有时还需要输入一些用户信息。神经网络在预测,你是否会点击这个广告,这方面已经表现得很好了。通过向你展示,以及向用户展示最有可能点开的广告,这就是神经网络在很多家公司,赚取无法想象的高额利润的应用方式。因为有了这种能力,向你展示最有可能点击开的广告,直接影响到了不少大型线上广告公司的收入。
过去的几年里,计算机视觉也有很大进展,这要感谢深度学习。你输入一个图像,然后打算输出一个下标,可以是从 1 到 1000,来表明这张照片,是 1000 个不同的图像中的某一个。它可以用来给照片打标签。
深度学习最近在语音识别方面的进展也是非常令人兴奋的。你可以将音频片段输入神经网络,它可以输出文本。机器翻译也进步很大,这得感谢深度学习,让你有一个神经网络,能实现输入英语句子,它直接输出一个中文句子。
在无人驾驶技术中,你输入一幅图像,比如汽车前方的一个快照,还有一些雷达信息。基于这个,训练过的神经网络,能告诉你路上其他汽车的位置。这是无人驾驶系统的关键组件。
神经网络创造这么多价值的案例中,你要机智地选择x和y,才能解决特定问题。然后把这个监督学习过的组件,嵌入到更大型的系统中,比如无人驾驶。可以看出,稍微不同的神经网络,也可应用到不同的地方。比如说,应用到房地产上。我们上节课看到,我们用了通用标准的神经网络架构,是吧?对于房地产和在线广告,用的都是相对标准的神经网络,正如我们之前见到的。
图像领域里,我们经常应用的是卷积神经网络,通常缩写为 CNN。对于序列数据,例如音频中含有时间成分,对吧?音频是随着时间播放的,所以音频很自然地被表示为一维时间序列。对于序列数据,你经常使用 RNN,循环神经网络。
对于语言,英语和汉语,字母或单词,都是逐个出现的。所以,语言最自然的表示方式也是序列数据。更复杂的 RNN 经常会用于这些应用。对于更复杂的应用,比如无人驾驶,你有一张图片,可能需要 CNN “卷积神经网络结构” 架构去处理。雷达信息会更不一样,你需要一些更复杂的,混合的神经网络结构。
所以,为了更具体地说明,标准的 CNN 和 RNN 结构是什么。在文献中,你可能见过这样的图片,这是一个标准的神经网络。你可能见过这样的图片,这是一个卷积神经网络。在后续的课程,我们会去了解这幅图的含义和如何实现它。卷积网络通常用于图像数据。你可能也会看到这样的图片,后续的课程也会去实现它。循环神经网络非常适合处理一维序列数据,其中包含时间成分。
你可能也听说过,机器学习被应用于结构化数据和非结构化数据,下面是这些术语的含义。结构化数据,是数据的数据库,例如在房价预测中,你可能有一个数据库或者数据列,告诉你房间的大小和卧室数量,这就是结构化数据。在预测用户是否会点击广告的例子中,你可能会有用户信息比如年龄,还有广告信息,还有你要预测的标签y,这就是结构化数据,意味着每个特征,比如说房屋大小、卧房数量、用户的年龄,都有着清晰的定义。
相反,非结构化数据指的是,比如音频、原始音频、图像,你想要识别图像或文本中的内容。这里的特征可能是图像中的像素值,或者是文本中的单个单词。从历史角度看,与结构化数据比较,非结构化数据让计算机理解起来更难。但人类进化到现在,很擅长理解音频信号和图像。文本是一个更近代的发明,但人们真的很擅长解读非结构化数据。
神经网络的兴起过程中,最令人兴奋的事情之一就是,多亏了深度学习,多亏了神经网络,计算机现在能更好地解释非结构化数据。和几年前对比的话,这给我们创造了很多令人兴奋的应用机会。语音识别、图像识别、自然语言文字处理。现在能做的事情,比两三年前要丰富多了,我认为,因为人们生来就有能力,来理解非结构化数据。
你可能知道,神经网络在非结构化数据上的成功,尤其是媒体。当神经网络识别了一只猫时,那真的很酷。我们都知道,那意味着什么。神经网络在很多短期经济价值的创造,是基于结构化数据的,比如更好的广告系统,更好的获利建议,有更好的能力去处理很多公司拥有的海量数据库,并用这些数据准确预测未来趋势。
在这门课中,我们会学到很多技巧,可以应用到结构化数据,也可以应用到非结构化数据。为了更清楚地解释算法原理,我们会多用非结构化数据的例子。但当你自己的团队评估了各种神经网络的应用之后,希望你的算法能够同时学习结构化和非结构化数据。神经网络彻底改变了监督学习,正创造着巨大的经济价值。
其实呢,基本的神经网络背后的技术理念,大部分都不是新概念,有些甚至有几十年历史了。那么,为什么它们现在才流行,才行之有效呢?下一集视频中我们将讨论,为什么是最近神经网络才成为你可以使用的强大工具。
链接:https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001701006