首先还是要肯定一下Deep Learning对于无数深度学习入门者和研究者的价值,这本书系统全面且深入浅出地讲解了深度学习领域知识,是一本较为权威的学习用书,得到了很多人的认可和推荐。
可即便这本书采用在线更新的方式,边写边根据读者评论进行修改,不断将新的成果和文献加入进去,以保证内容的先进性,但事实上从2016年11月出版至今,短短半年多时间,其中部分论述就已经有了被新的研究成果所替代的必要性了。
作为一个处于深度学习技术研究前沿的AI初创企业,竹间智能在不断取得突破性研究成果的同时,也一直密切关注该领域最新动态。此次我们邀请竹间智能 深度学习科学家赵宁远,来结合实践,并从最新技术发展的角度,谈谈DeepLearning 一书中尚未覆盖到的深度学习领域的问题。
DeepLearning一书是基础,但不够前沿
Deep Learning一书应该算是教材性质,整体还是偏基础,并不是跟进最新内容的好地方——arxiv(无论怎么被黑,还是第一时间获取信息的渠道),各种会议,以及熟人间的互相打听(其实比看arxiv更有效的方法是去找这个领域领先的研究者聊天,看看他们脑子里的想法和方向,这才是真正的frontier)都会是获取新信息的更好途径。书后面的“deep learning research”部分也仅仅是给大家提供一些active research fields的简单介绍。
所以,最近有些非常热门的领域,比如深度强化学习以及GAN在本书都没有涉及,我想这个也是大家比较能够理解的(即便本书作者之一就是GAN的发明者)。再者,很多本领域的论文都有“标题党”的倾向,虽然深度学习貌似在2016-2017年还是有“爆发式”的进展的(毕竟有名的paper非常多),但实际上大部分理论层面的创新还是incremental的居多,所以如果是以“入门基础”这个水平来看,本书还是包括了比较全面的信息的。
不过所谓横看成岭侧成峰,不同的视角下的深度学习可能也会折射出不同的光芒,对于同一个领域的理解与看法,视角的差异也许会远大于内容上的差异。所以,我们想挑出我们比较关心的Deep Learning的一些领域来分享一些书里面可能没有覆盖到的部分。
首先是RAM的发展(Reasoning, Attention and Memory)
针对认知层级的AI,推理、注意力和记忆是一个重大的课题。无论是改进的神经翻译模型,还是最近取得巨大突破的机器阅读理解,或者是试图取代程序员的神经图灵机,都与这个话题有很大的关系——甚至可以认为这个方向的突破代表着2015年以来深度学习最大的进步——虽然这个题目可以追溯到1997年的LSTM。
在2014-2015年左右,出现了非常多的开创性的内容,包括Jason Weston等的Memory Networks (https://arxiv.org/pdf/1410.3916.pdf),AlexGrave等的Neural Turing Machine(https://arxiv.org/pdf/1410.5401v2.pdf),KarlMoriz Hermann等的Teaching Machines to Readand Comprehend(https://arxiv.org/pdf/1506.03340.pdf),D.Bahdanau等的Neural Machine Translationby Jointly Learning to Align and Translate(https://arxiv.org/pdf/1409.0473.pdf).
这样的形势下,在2015年Jason Weston组织的NIPS workshop 上,“Reasoning, Attention, Memory (RAM)”的概念(http://www.thespermwhale.com/jaseweston/ram/)被正式提出。会上有很多非常不错的talk,包括Juergen Schmidhuber的How to learn an algorithm(http://people.idsia.ch/~juergen/rlram2015white.pdf),Alex Graves的Smooth Operators: the Rise of Differentiable Attention in DeepLearning(http://www.thespermwhale.com/jaseweston/ram/slides/session2/Smooth%20Operators-NIPS2015.pptx),以及Yoshua Bengio的From Attention to Memory and towards Longer-Term Dependencies(http://www.thespermwhale.com/jaseweston/ram/slides/session1/Yoshua_Bengio.pptx)。
接下来的事情都是大家耳熟能详的:DeepMind在Nature发布的可微分计算机DNC(Hybrid computing using a neural network with dynamic external memory,https://www.nature.com/nature/journal/v538/n7626/full/nature20101.html),微软刷新SQuAD(https://rajpurkar.github.io/SQuAD-explorer/) 的r-net(https://www.microsoft.com/en-us/research/publication/mrc/),以及最近很红的Attention is all you need(https://arxiv.org/abs/1706.03762)。其实如果读过RAM workshop上的“The Neural GPU the Neural RAM machine”,也许就会发现这些“突破性”的进展,也许并没有那么“novel”了:)
其次是深度学习的理论解释
在这个事情上,Understanding deeplearning requires rethinking generalization(https://arxiv.org/abs/1611.03530)这篇论文是最具代表性的。实际上这个问题是现在一个非常热的话题,在我写这个回答的时候,就在arxiv上刚刷出一篇Exploring Generalizationin Deep Learning(https://arxiv.org/pdf/1706.08947.pdf)
众所周知,根据PAC learning和VC理论,过于复杂的模型倾向于过拟合数据,从而降低了对于未知数据的预测能力(增加了结构风险),但是深度神经网络结构复杂参数非常多,而且非常容易过拟合,但是预测效果却非常的好,即使这个看起来似乎有碍常理。虽然有很多基于critical point数量的理论尝试解释,但归根结底也还是没有能够调合模型复杂度和预测能力的矛盾。所以在这个方向(深度学习为什么work)上,Deep Learning一书还是略有欠缺的。
最后是模型压缩
深度学习模型中学到的权重实际上是比较稀疏的 (也可能是通过正则化来产生稀疏性)。那么很显然,我们可以利用这个特点来对权重进行压缩,用较小的代价换取非常巨大的性能提升。
在这个领域,Han Song是当之无愧的专家。大家可以通过Deep Compression, DSD Training and EIE: Deep Neural Network ModelCompression, Regularization and Hardware Acceleration(https://www.microsoft.com/en-us/research/video/deep-compression-dsd-training-and-eie-deep-neural-network-model-compression-regularization-and-hardware-acceleration/)这个talk来了解这个领域的一些进展。他的工作还包括SqueezeNet(https://arxiv.org/pdf/1602.07360v3.pdf)和ESE(https://arxiv.org/pdf/1612.00694.pdf)。
当然,限于篇幅,以上几点也只能算抛砖引玉,提到了很小的一部分,也期待大家的精彩分享。
图片来源于网络。
竹间智能Emotibot以类脑对话系统和情感计算为核心,希望以人工智能技术助力更多行业、机构及个人拥抱AI时代,分享AI发展的红利。
如需转载,请联系竹间智能Emotibot微信公众号(Emotibot_tech),并注明出处。
相关阅读:
竹间智能Emotibot
长按识别二维码,关注我们