AI 科技评论按:被大家誉为深度学习三驾马车之一的 Yann LeCun 喜欢跟人争执的名声可算越传越广了。这几天,LeCun 和 NIPS 2017「时间检验奖」论文作者之一的 Ali Rahimi 就在 Facebook 上掐了起来。
在 12 月 5 日的 NIPS 2017 开幕仪式上,NIPS 2007 收录的「Random Features for Large-Scale Kernel Machines」获得了「时间检验奖」Test of Time Award,这是 NIPS 2017 评审委员会认为影响最深远的十年前的论文。论文作者之一的 Ali Rahimi 也发表了精彩的论文解读和获奖演讲 从「炼金术」到「电力」的机器学习。在演讲中,Ali Rahimi 回顾了其十年前顶着「学术警察」对于机器学习这门新学科的质疑前进的过程,并提出经过十年的发展,机器学习需要从野蛮生长到建立一个完整的体系的过程,并号召大家去为机器学习的理论框架添砖加瓦。
演讲获得了现场听众的高度认可,AI 科技评论记者遇到 AAAI 主席 Subbarao Kambhampati 的时候,他也表示非常赞同 Ali Rahimi 的观点。不过意外的是,Yann LeCun 觉得自己被冒犯了,他非常不喜欢演讲中把深度学习称作「炼金术」的说法。Yann LeCun 在自己 Facebook 上发出一条长动态清晰地表达了自己的观点:
Ali 的演讲非常有趣,他的意思也讲得很清楚。不过他想表达的东西我从根本上就不太同意。重点来说,他表达的意思是目前我们在机器学习方面的实践就和「炼金术」差不多(他的原话)。这摆明了就是侮辱。不过也不担心,因为机器学习并不是「炼金术」。
Ali 说,目前在机器学习中使用的许多方法,人们都缺少(理论性的)理解,尤其是在深度学习领域。
能够让人理解(不管是理论角度还是别的)当然是一件好事。让方法变得越来越能被人们理解,也是包括我在内的许多研究者活跃在 NIPS 大家庭中的原因。
不过我们也有另一个重要的目标,那就是开发新的方法、新的技术,就像 Ali 说的,新的把戏。在科学技术的历史上,工程方面的产品总是要先于理论理解一步:镜片和望远镜先于光学理论问世,蒸汽机先于热动力学问世,飞机先于飞行空气动力学问世,无线电和数据通讯先于信息论问世,计算机先于计算机科学问世。
为什么?因为理论研究者会自发地先研究那些「简单」的现象,只有当复杂的问题开始有了重要的实践意义的时候他们才会转移注意力。
仅仅因为我们目前的理论工具还没有赶上实践的脚步就把一整个研究大家庭批评为一群「炼金术」的执行者(况且这个大家庭做机器学习做得也相当不错),这是很危险的。为什么危险?因为十多年钱,在即便有充足的经验证据证明神经网络在许多情况下可以运行得很好的情况下,还是让机器学习大家庭放弃神经网络的恰恰就是这样的态度。神经网络,带有非凸的损失函数,当时没人能保证它们可以收敛(然而当时它们就实际上可以收敛,就和现在一样)。所以人们就在倒洗澡水的时候,把盆里的小孩也一起倒掉了,把注意力全都放在了「可以证明」为凸的方法或者曾经辉煌过的样板匹配方法上(甚至是从 1957 年传下来的随机特征方法)。持续不断研究的某一组方法,仅仅是因为它们可以用理论描述;同时忽略一组实际上效果更好的方法,仅仅是因为(当时还)不能从理论角度理解它们,就好像在路灯的光下找车钥匙,即便你知道你的车钥匙是在别的地方丢的。没错,我们确实需要对我们的方法有更多的理解,但是正确的态度应当是尝试改善这个状况,而不是出口冒犯整个大家庭,只是因为他们还没成功。这不就和批评改良蒸汽机的瓦特没成为热力学学者卡诺或者没成为物理学家赫尔姆霍茨一样么。
我自己组织以及参与了数不清的 workshop,它们把许多深度学习的学习者和理论研究者聚到一起,他们中的许多人是 IPAM(UCLA 应用数学研究院)的成员。作为 IPAM 的科学顾问委员会成员之一,如何让深度学习引起数学研究员们的兴趣也是我考虑的重要任务之一。实际上,2018 年 2 月在 IPAM 上就有一个这样的 workshop,我就是协办者之一。Ali,如果在你天天要用的这些方法上,你觉得我们的理解不能让你满意,那就来动手改善状况:你可以开始研究深度学习的理论,而不是报怨别人不做这些事;不要说以前的 NIPS 上只研究「理论上正确」的方法的时候就如何如何比现在的更好,因为并不是那样。
Yann LeCun 的表态马上引起了 Facebook、Twitter 网友们的转发和讨论。很快,Ali 本人也给出了回应:
Yann,谢谢你思考之后的回复。Moritz Hardt 一年以前也就给我说过「如果你不喜欢现状,那就动手来改善状况」这句话。我们只有一小组研究人员,想要做出进展也挺困难的。说实话,这件事的工作量之大让我有点吓到了。我在演讲中也是希望有更多的人可以帮忙来一起解决。
我觉得问题不是出在理论上。数学也只做得了数学的事情,起不到多少帮助。我觉得问题在于研讨方式上。我希望我们可以有简单的实验、简单的理论,这样当我们沟通深入的见解的时候就不会有迷惑之处。你可能非常擅于构建很深的模型了,因为你比我们中的大多数人都做过更多的实验。那么想象一下新加入这个领域的人会有多疑惑吧。之所以在我们看来这些东西像变魔术一样,就是因为我们不在乎构小的基础性研究结果,而总是在讨论整个模型作为一个整体是如何奏效的。这个踏过门槛的过程非常让人疑惑。
并且我确实觉得炼金过程是非常重要的。它们能让我们前进得更快,它们能解决临时遇到的问题。有些人能快速在脑海里形成直觉,然后构建出能奏效的系统,我对他们怀有最深的敬意。你,以及我在谷歌的许多同事都有这样的令人钦佩的技能。这样的人很稀少,很可贵。我希望研究风气变得严格,有一部分原因是因为我们希望擅长这种炼金式思维的人能给我们其它的人带来一些研究中的掘金手段,这样我们也能达到你们那样的高产出。我希望的「严格」就是这些研究中的掘金手段:简单的实验,简单的理论。
LeCun 也继续给出了回复:
简单、通用的理论确实是很好的。
比如热力学研究发现的基本规律让我们不再浪费时间寻找效率为 100% 的热机以及永动机。
在机器学习中我们也已经找到了这样的理论,对每个机器学习的机器都是适用的,包括神经网络(比如连续性/容量理论,「没有免费的午餐」定律,等等)。
但实际状况很有可能是,我们没有什么「简单」的理论是具体针对神经网络的。人们解不出流体力学的纳维-斯托克斯方程和三体问题也是由于同样的原因。
LeCun 提到的 UCLA 应用数学研究院的成员之一 Mark L.Green 回复道:
在科学中有许多领域都是实践跑在了理论的前面。比如说,支持弦论的科学家就在他们的理论体系中发现了纯数学的描述,但是同时数学家却很难找到合适的理论体系。地理学家和生物学家发现了地球已经存在了多久的时候,解释太阳为什么能发光发热的理论也还远没有出现。Yann,你有一群很好的伙伴,而这也是作为带头人的意义。另外谢谢提到 IPAM。
Yoshua Bengio 也加入了进来,一并讲给在 LeCun 回复下讨论的网友:
提起炼金术的时候,多数人们联想到的都是它「没什么效果」、「全都是错误的理论」。而我们现在在深度学习有的,是部分的理论和部分的解决方案。这是完全不同的。我们其实也有许多的理论研究结果,让我们对网络为什么能奏效有了更深入的了解,包括网络深度带来的指数级增长的优势、从统计角度得到的分散的表征(如果背后的函数是多项式的)、以及为什么随机梯度下降并不会卡在不好的局部最小值里,而且还能帮助网络更好地泛化。
我们现在就有许多已经理解了的法则,其中最重要的是关于泛化和优化的。这些法则不允许我们预测超参数的细致作用(超出了可量化的预测之外),但也确实是物理规律的体现;正如物理规律允许我们对宏观、大量物体做精确的预测,但有些只有几个天体的简单系统(或者几个原子的系统)就没法预测。
在 Reddit 的讨论区上,网友们也对 Yann LeCun 和 Ali Rahimi 两人的观点进行了各方面的评价。有网友觉得 LeCun 一如既往地对批评的声音太敏感,有人觉得在深度学习越来越深入日常生活的时候也必须在可理解性上有大的飞跃,有人说当年人们放弃神经网络更重要的原因是没有足够的计算资源训练网络,也有人提出 Ali 想要的“简单的实验,简单的理论”到了更复杂的环境下根本就不会有用、甚至会得到相反的结论,等等等等。
作为观众,AI 科技评论其实还挺愿意看到他们这样在争论中把问题都放到台面上来,同时也引发更多的关于神经网络、深度学习的研究与实践的讨论。如今理论和实践的研究都随着领域的变大、变深而变得越来越窄,新入门者也越来越多,这是一个很好的让身在其中的专家们重新审视一下整个领域、让刚入门的研究者了解到更多的现状和历史的机会。AI 科技评论也由衷希望这样的争论能帮理论科学家们提高实践水平、提醒系统工程科学家们更多注意内在的理论基础。
来源 MachineLearning @ reddit,AI 科技评论编译整理。
————— 给爱学习的你的福利 —————
上海交通大学博士讲师团队
从算法到实战应用,涵盖CV领域主要知识点;
手把手项目演示
全程提供代码
深度剖析CV研究体系
轻松实战深度学习应用领域!
详细了解点击文末阅读原文
▼▼▼
————————————————————