LeCun亲授深度学习入门指南:从飞行器的发明到卷积神经网络 | 厚势汽车

2018 年 3 月 27 日 厚势 量子位


深度学习和人脑有什么关系?计算机是如何识别各种物体的?我们怎样构建人工大脑?


这是深度学习入门者绕不过的几个问题。很幸运,这里有位大牛很乐意为你讲解。


2 月 6 日,UCLA(加州大学洛杉矶分校)与纯数学与应用数学研究所(IPAM)跨界组织主办的论坛上,「卷积神经网络之父」Yann LeCun 操着一口浓重的法国口音,给数学界的科学家们介绍了深度学习。


LeCun 从鸟类对飞行器发明的影响开始讲起,层层递进、逐步深入到深度学习的本质,可以说对新手非常友好了。


全程视频:



讲座的主要内容:


今天在座的都是数学大神。


我呢,既不是数学家,也没拿诺贝尔奖。感觉站这儿份量不太够。


以前专业是工程学,不过炸过一些东西,后来就转软件了(不然世界怎么样就不好说了)。


今天来给大家简单介绍一下深度学习。


但我们不从 AI 开始讲起,而是从人类发明飞行器开始讲


依照达芬奇飞行器草图做的第一款飞行器,完全照搬了鸟类的外形。那时候人类根本不知道飞行底层的原理,所以只能从自然界的生物获得灵感,照葫芦画瓢。



第一次飞行,只成功离地 15 公分,还是 20 公分的样子,飞行器就挂了。所以我们还是需要更系统的方法,就是后来莱特兄弟造飞行器用到的一套方法,飞行终于成为了现实。


一般来说,理论认知都是在实践积累之后才有的。


飞行就说这么多。


那么问题来了。


人工智能可以从大自然里获得灵感吗?


很明显,这个想法很旧啦。我们先看一下生物界的智能体。


人类的大脑,差不多有 850 亿个神经元。而每个神经元都有上万个突触,在一千到十万个之间不等。人脑相当高效,能耗才 25 瓦特,是 PC 的十分之一。


每个有大脑的动物都能学习,不同动物的学习方式可能不同,有些比较简单。它们并不需要特别好的视觉,或者其他智能体的教导,就能自己去学。


我们尝试找出动物学习的机制,然后用来训练机器学习。



慢慢地,从 1940 年起,就有了打造智能机器的想法。于是就冒出来了感知机(Perceptron)。


它不是一台计算机,而是一个计算机模拟器。输入值是电压,超过某个阈值,就打开。低于阈值,就关闭。而权重是可以被训练的,就像一个可旋转调节的钮。


尽管现在我们可以用三行 Python 代码实现它,但在那年代已经算是大型的计算机了。


这个感知机是怎么运转起来的呢?


原理是很简单的,你需要先集齐一堆训练数据。


比如说任务是图像识别,那么输入就是图像的一个个像素。当每个像素用 0,1 表示时,那么就可以组成一串数字。


你给机器一张图,字母 A,然后输出应该是 1。那么训练的时候,就读取图像中的像素,调高那些能增强最终结果是 1,也就是判定字母是 A 的像素的权重,并调低偏离最终结果的像素的权重。



数学上只需要一行 Python 代码就可以搞定。


事实上,虽然这个办法是直觉上想出来的,但后来几年发现这个问题可以总结成几个方程,也是受到了生物学的启发。


我们回到人的大脑是怎么学习的。


每个神经元是通过突触来连接其他神经元,从而传递信号。



但在数学上,这个概念被简化了,将感知机里的权重看成一个个的旋钮。


对于具体的输入,根据输出的错误再调参数,训练,重复,直到目标函数的值越来越小(目标函数的值,表示的是你得到的输出和你想要的输出的差值)。


这叫做梯度下降(gradient descent),依然是很简单的数学问题。


举个稍微复杂一点的例子,我们要做一个图片分类器,辨识汽车、飞机、椅子等物体。



它们的外观千变万化,我们怎样让计算机认出每一类物体呢?


这需要依赖大量的手动调整。给系统一张车的照片,如果系统将它认成车,红灯亮起。如果红灯不亮,就调整这些按钮,让红灯的亮度增强;输入飞机的图片,调整按钮,让绿灯亮度增强。


输入足够多的训练数据不停调整按钮,直到机器能够辨认出来它从来没见过的相片为止,那么就算训练成功了。


你们肯定会问,这个能识别图像的神秘盒子里到底装了什么?


这个答案,在过去的几十年里,一直在变。


传统的模式识别,是给它一张图,然后过一个特征提取器。这个特征提取器是人工搭建的,把这些图像的像素变成一串数字,然后用简单的算法吸收消化,得到这张图的内容。这种方法在深度学习出现以前一直都在用。



而深度学习是把模块分成可以被训练的好几层。就像视觉信号的传递一样,需要多步来提取信息。


下一个我们要问的问题是,我们应该往这些可训练的模块箱里放什么东西?


「多层」的概念是 50 年代提出的,到 80 年代时用的人稍微多了起来。



每一层都是由简单的单元组成,而单元又是基于上一层的输入,经过不同程度的权重处理得到的。然后如果值超过阈值,就继续往下走,低于阈值就不取。


那么,我们要如何训练机器呢?


这其实是不断调小偏差的过程。问题的关键在于往什么方向调整参数、调整到什么程度,才可以拿到我们想要的输出。


1980 年,这个问题才有了解决方案。


这个方案是一个复杂的数学概念的实际应用,叫链式法则(Chain rule)。


当你有一个网络的时候,你有的是连续的功能区块(Functional block)。


每一个区块或者做矩阵乘法,或者是给每个输入做一个非线性的运算。我们来看看系统之中分离出来的一个区块。



你可以简单地算出来输出值。比如说这是一个线性的矩阵乘法模块,参数乘以向量,这样你就能拿到输出的向量。这两个区块有不一样的维度。


现在假设,对于每个向量中任何元素的调整,我们都知道损失会往什么方向变化。


损失函数的斜率,表示的是我们得到的输出和我们想要输出的差值。通过计算,可以得出图中绿色的向量,从上到下计算一个递归公式,通过反向传播,就能得到 cost 和所有模块相关的梯度。


很多现在的平台,在你写程序定义网络后,都可以自动运行反向传播,计算梯度。


这些问题都解决了之后呢,我们就可以建一个人工的大脑了吗?


要知道,人脑每秒可以做 10 的 17 次方的运算,神经元数量达到 10 的 11 次方。


我们来看一款运算速度很快的芯片。右下角的英伟达 Titan-V,这个 GPU 每秒可做 10 的 15 次方运算,比人脑要慢 100 倍。



所以大家算算,即使芯片的速度翻一倍要 18 个月的话,那还要多长时间能达到和我们人脑一样?如果要让芯片在合理的大小范围的话,我认为我们还要等多几十年。


但这个不是主要问题。主要问题是我们不知道怎么编程它们、怎么训练它们、训练原则是什么。


这个 GPU 很便宜,才 3000 刀,但是现在大家都在买来挖矿,所以已经买不到了。


我说过很多次了,如果在我职业生涯中,能够造一个智能体,像大鼠一样具有常识,我会感到很开心很满足。我们现在也许有相应的算力了,但我们还没有搞清楚潜在原则。现在是这个底层原理限制住了。


好啦,现在我们来跳出来看看生物还有没有给我们别的启发。


Hubel & Wiesel 1962 这个生物研究工作太有名了,大家都知道的,是 70 年代拿了诺贝尔奖的。工作本身是在 60 年代做的,是视觉信号传递的生理结构。


简单的细胞检测位置信息,复杂的细胞整合简单细胞受到刺激的信息。



所以,如果有一个特殊的动机,稍微移动一点,复杂细胞都会被激活。


Fukushima 在 1982 年造了一个计算模型,就是描述简单细胞和复杂细胞之间的层级关系。这个是 80 年代的工作,那时候还没有合适的学习算法。所以用了其他的非监督型算法。


后来,我受到这个算法启发,造了一个含有相似构造的网络,用反向传播算法来训练,就是我们平时说的卷积神经网络(CNN)


下面是卷积神经网络的示意图。


图像中的像素会激活 CNN 中的单元。但我不敢称他们为神经元,不然神经科学家会不爽。因为比起神经元来说,这些单元实在是太简单了。



每个单元,看起来像 patch。这些单元会和阈值比,比他们高,就打开。低的话就关上。


可以看到这个用激光笔指出的 patch 是系数。


左边这个是输入 patch,把系数向量和输入向量乘在一起。用系数把整个输入刷一遍,然后你记录就能得到右边的结果。


如果它们能够匹配的话,就得到高度激活的结果,不匹配就得到非激活的结果。


这在数学上就叫做离散型卷积。


经过了层层卷积核的系数处理,最后得到的是最右边的压缩过的信息。



我们在 90 年代中期的时候弄了一个很牛的模型。不仅能够认出来一个字母,还能认出多个字母,还不用先分割开。当时如果用经典数学算法就必须先分割。


等到无法从图像中分割出物体时,我们模型的重要性就显现出来了。


这个模型中每一层都是卷积的,同时进行分割和识别。


这是那个时候年轻的我,把一张纸条放在一个摄像头下面,然后按一下键盘。这是 1993 年的时候(嘴上说的是 1992 年)。


这是我在新泽西的时候贝尔实验室那会儿的电话号码,现在已经不用了。



在几秒钟之内,就可以处理图像,识别出数字。


训练数据量不用很多,哪怕是很小的、不同的手写体,都能识别成这样,效果很不错了。


为了以合适的速度跑起来这个程序,我们用了特殊的硬件 DSP 32C,速度可到 20 FLOPS。最后,我们用这个造了一个可以识别支票的系统。于 1996 年左右开始铺开使用。


到 90 年代末,这套系统已经在处理 10% 到 20% 左右的支票了。如果你够老的话,也许你的支票被这套系统读取过。


这么看,这套系统还是挺成功的。可惜在 90 年代中期,在机器学习圈里,大家对神经网络的热情消失了。


很大一个原因是,这套系统需要大量的计算力投入才软件系统里。这样才有可能跑起来。


这一切都发生在 MATLAB、微软系统、Linux 出现之前,AT&T 都还没公开相应的硬件资源。没有大型计算机,或大型数据集,大家做这个都只能靠直觉。


其实在那个时候,很多东西都很玄学,我们并不能从数学的角度去解释他们。


不能解释背后的原理的话,就没办法形成一套理论。没有理论就很混乱,都发不了文章。


哪怕事实上,这些方法是可用的,但是也被抛弃了。


不过我们当中的某些人,知道,这方法最终还是会回来的。因为在某些情况下,这套方法是更好的。


因为它们会自己学习,不仅仅是识别图像,还能够抽象地表示这个世界。它们能够找到事物的本质,然后找到不同部分之间的联系,然后组装成以个整体。它们做的事情很强大,所以也需要更多的数据。


在 1996 年和 2002 年之间,我几乎停止了这方面的研究,改做图像压缩。


2003 年的时候我又开始搞回这个了。我们做了一辆有两个摄像头小车,让人来控制它,当距离障碍物 2 米的时候,我们会控制它向左转或向右转来避开障碍物。然后,我们训练一个 CNN 来看两个摄像头采到的画面,去预测方向盘转向的角度。



只需要 20 分钟的训练数据,这个 CNN 就可以自己开车了!遇到障碍物的时候,它会自行转向避开。


在这套系统的启发下,DARPA 举办了 LAGR(Learning Applied to Ground Vehicles),一个 150 万美元的项目。



你可以看到这个机器人有四个摄像头,内部装了三台计算机,可以在自然环境中自动行驶。我们训练了一个 CNN,让它告诉我们在画面上,哪些区域是可以顺利通过的。


使用传统的立体视觉成像技术,也能实现这个功能。但是,立体成像很贵,工作范围也很有限,大概能做到 10 米的距离。


这就是 CNN 的一种用途。


很快我们就意识到,不能只是标记一个区域能不能通过,更有意思的是,看图中的某些像素属于哪个物体。(物体识别分类)。


举个例子来说,这些是天,树,窗,路等等。



这是有人骑着自行车上路拍到的第一人称视角画面,这个算法不能说完美,它认为这里是沙漠,实际上在曼哈顿不可能有沙漠。


不过,它识别行人等主要目标的能力都不错,而且即使在普通电脑上跑,也比当时最领先的系统快 100 倍。这个算法让很多人产生了灵感,认为我们能把它用到无人驾驶上。


2014 年,有两个公司很快就把这个技术拿过去用了。一个是 MobilEye,另一个是 Nvidia。



2010 年之前,这些研究都在低调地进行着,后来,事情有了变化。


2011 年的时候,深度学习在语音识别上有了重大的进展。


在 2012 年年底,深度学习在 ImageNet 比赛上一举成名。ImageNet 数据集包含 1000 类物体的 130 万张照片,传统图像分类算法在这个数据集上取得的最低错误率大约是 26%。


2012 年,一个由多伦多大学做出来的大型 CNN,将错误率降到了 15%。他们是第一个正式用 GPU 跑这么大的 CNN 的团队。


于是,突然之间,整个计算机视觉领域都开始使用这项技术。我从来没见过一个研究领域如此快速地从一种技术转向另一种。


其实就在 2011 年,我们还提交了一篇论文到 CVPR。这篇论文打败了当时最好的记录,但是却被拒了。因为那个时候人们都不相信 CNN 能取得这么好的成绩。因为大家没见过,于是,他们就主观臆断地认为我们犯规了之类的。


但是 3 年之后,世道完全反过来了。你不用 CNN,文章都不可能被接收。


不过这也不是一件好事。因为这样会灭杀多样性。讲这件事是想让大家知道,这在当时是一个多么重大的革命。


这些网络都特别大,有上百万个按钮、单元和权重。网络的第一层检测的都是一些基本 motif,比如边缘、线条等等。


有的 CNN 多达 50 层,甚至更多。为什么我们需要这么多层?



神经网络的多层架构对应着数据的组成型结构,不同层检测不同的特征,比如线条、边缘等底层特征,圆圈、弧线、角等中层特征,更接近图形的高层特征。


这个世界的所有事物呈现都是分层的。比如文本,就是从字母,字,词,从句,句子,段落组成的。


爱因斯坦曾经说过,这个世界最不可思议的事,是所有东西都是可以被理解的。


世界上最令人费解的事情是,世界是可以理解的。


过去几年大量的公司做了很多努力,让这些技术落地,并规模化。


比如说,我们现在用 256 个 CNN,1 小时就能完成在整个 ImageNet 上的训练,错误率达到 23.74%。


计算机视觉的最前沿研究 Mask R-CNN,可以做物体分割,关键点检测,人体姿态捕捉等等。用 Sparse ConvNet 还可以做 3D 语义分割。



另外,CNN 还能用在和视觉没什么关系的领域,比如做翻译。这对于 Facebook 来说很有用,帮助用户翻译短篇的文章。


今天分享提到的很多资料,都是开源的。


卷积神经网络可以应用在很多领域,比如在无人驾驶上,可以帮机器用视觉感知环境。在医学影像、基因学、物理学等等各种领域都有应用,而且几乎每天都有新的落地领域出现。


深度学习不仅能感知,还能推理。


比如说,我们可以根据一张图片,提出问题,下图中方块的数量比黄色的物体多吗?



如果是人类来回答这个问题,需要分别数一数方块和黄色物体的数量,然后比较这两个数量的大小。


对于神经网络来说,就需要一个模块来分类出方块和黄色物体,另一个模块来数数,还需要一个模块比较大小给出答案。


这个神经网络是动态的会随着输入的变化而变化,输入会决定神经网络的架构。


另外,用记忆模块来增强神经网络也是一个很有意思的研究方向。


最后,LeCun 老师还强调了一点:目前,机器并没有通用的智能,也没有常识。




-END-


文章精选


企业家

马斯克和贾跃亭 福特CEO下台正道汽车仰融

任正非裁员电池大牛凯尔提离开特斯拉

智能驾驶

BBC自动驾驶纪录片自动驾驶第一案,谷歌讼Uber

为什么说百度阿波罗画虎不成反类犬?

考虑线控转向非线性和不确定性的转向角控制

国内外智能网联汽车试验场的发展现状

基于环视的道路标线检测与识别

集成式电子液压制动系统防抱死制动控制

新能源汽车

全国50个新能源汽车项目大盘点

锂电池发展趋势中国汽车产业电动化进程

苹果收购特斯拉?丰田和特斯拉决裂

重庆大学:燃料电池关键材料与进展

干勇院士:中国氢能源体系

项目和评论

以色列最强10家自动驾驶创业公司

 37个汽车分时项目盘点百度投资蔚来汽车

马化腾或为共享单车最大赢家汽车产业3大趋势

Momenta获$4000万B轮

百度系自动驾驶初创公司 Pony.ai 的突围之路

这些大神从Google出走,创办了五家(命运各异的)无人车公司

无需基础知识,理解自动驾驶高精度行车定位技术


为您对接资本和产业

新能源汽车 自动驾驶 车联网




联系邮箱

bp@ihoushi.com

点击阅读原文,查看文章「汽车科技一周要闻回顾(3.18~3.24)

登录查看更多
0

相关内容

感知机在机器学习中,感知机是一种二进制分类器监督学习的算法。二值分类器是一个函数,它可以决定输入是否属于某个特定的类,输入由一个数字向量表示。它是一种线性分类器,即基于线性预测函数结合一组权值和特征向量进行预测的分类算法。
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
130+阅读 · 2020年7月10日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
180+阅读 · 2020年3月16日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
188+阅读 · 2019年12月28日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
25+阅读 · 2019年11月19日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
164+阅读 · 2019年10月28日
直白介绍卷积神经网络(CNN)
Python开发者
25+阅读 · 2018年4月8日
在深度学习的革命中,谈谈卷积神经网络(CNN)
开源中国
8+阅读 · 2018年3月23日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
Yann LeCun爆惊人言论:深度学习已死?
雷锋网
7+阅读 · 2018年1月7日
Yann LeCun:深度学习已死,可微分编程万岁!
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
6+阅读 · 2018年2月6日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
130+阅读 · 2020年7月10日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
180+阅读 · 2020年3月16日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
188+阅读 · 2019年12月28日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
25+阅读 · 2019年11月19日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
164+阅读 · 2019年10月28日
相关资讯
直白介绍卷积神经网络(CNN)
Python开发者
25+阅读 · 2018年4月8日
在深度学习的革命中,谈谈卷积神经网络(CNN)
开源中国
8+阅读 · 2018年3月23日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
Yann LeCun爆惊人言论:深度学习已死?
雷锋网
7+阅读 · 2018年1月7日
Yann LeCun:深度学习已死,可微分编程万岁!
Top
微信扫码咨询专知VIP会员