学界| 用20000篇论文告诉你:机器学习在过去五年中发生了什么

2017 年 4 月 10 日 AI科技评论

AI科技评论按arXiv.org 是一个专门收集物理学、数学、计算机科学与生物学论文预印本的网站。数据显示,截至 2014 年底的时候,arXiv 已经达到了一百万篇以上的论文藏量,并且还在以每月 8000 篇的速率增长。算是目前全球最具规模的论文数据库之一。

近日,来自斯坦福大学计算机学院的博士毕业生、OpenAI 的高级科学家 Andrej Karpathy 基于一份 arXiv 机器学习论文大数据,从论文数量、开源框架、数学模型和优化算法等多个方面对过去五年中的机器学习变化趋势进行了详细分析,并将分析结果发布在Medium个人博客上。以下内容整理自该博客。

想必你一定听说过谷歌趋势(Google Trends)或者百度指数这种工具,任意输入一个关键词,就能立刻看到关于该词在过去几个月甚至几年之内的变化趋势。受此启发,碰巧我手边正好有一份 arXiv 论文数据集,它收集了过去五年中机器学习相关的 28303 篇论文。那么与谷歌趋势类似,从这些论文中,我们能否看到一些机器学习领域的科研发展趋势呢?我就此进行了详细的数据分析,发现这个结果相当有趣,因此在这里把它分享出来。

论文总量

首先我们看一下论文数量。在过去五年中,arXiv 收集的机器学习论文数量变化情况如下图所示。

从上图可以看到,论文总数在 2017 年 3 月出现了一次激增,从时间上看可能是由于 NIPS 和 ICML 等大型会议的论文提交截止日期正好在 3 月。而且有一点需要说明的是,arXiv 的论文数据集虽然全面,但也并不能完全代表整个机器学习行业的变化趋势,因为毕竟不是所有人都习惯于将自己的论文投递到 arXiv 网站上。不过,从上图我们仍然可以看到一个明显的上升趋势,这说明机器学习的热度的确在持续地上升中。

下面我们将以这些论文作为研究材料,看看其中包含着怎样的变化趋势。

深度学习框架

首先看看深度学习框架的情况。这里我记录了在 2017 年 3 月上传的所有论文中(包括参考书目和论文内容)提到的机器学习框架情况:

可以看到,在 2017 年 3 月份提交的所有论文中大约有 10% 都提到了 TensorFlow。当然,并不是每一篇论文都声明了框架的使用,但是如果我们假设论文以某一固定的概率分布来声明框架,并且这个概率与框架本身无关的话,那么大概有高达 40% 的社区都在使用 TensorFlow(如果也算上用 TensorFlow 作为 Keras 后端的论文,这一比例将会更大)。下面是这些框架随时间变化的趋势:

可以看到,Theano 已经高速发展了一段时间了,但近期它的增速正在放缓。Caffe 从 2014 年前后开始快速爆发,但在过去几个月中已经被强大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也处于上升期,虽然增速略显缓慢,不过增长稳定。我估计再过几个月再来看这个结果会更有趣,因为根据我的估计,未来 Caffe 和 Theano 将会缓慢衰落,而由于 PyTorch 的崛起,TensorFlow 的增速可能会放缓。

卷积神经网络模型(CNN)

下面再看一下卷积神经网络的情况,从下面的图表中可以清楚地看到,作为 CNN 领域里重要里程碑的 ResNets(深度残差网络)在 2016 年底的激增情况,在 2017 年 3 月提交的所有论文中甚至有大约 9% 都提到了 ResNets。

另外,这里还能看到在谷歌 InceptionNet 之前,实际上已经有论文提到了 inception 的概念。

优化算法

在优化算法方面,Adam 算法可以算是应用最多的一个,大约有高达 23% 的论文都提到了它。这里需要说明的是,在实际使用中 Adam 算法的采用率可能更高,因为许多论文都不会显式地声明优化算法,更有一部分论文甚至不会阐述关于神经网络优化的内容。另外,从图表中还能看出,在 2014 年 12 月 Adam 优化算法被正式提出之前,实际上也有一些论文提到了 “Adam” 关键词,它的概率大约维持在 5% 左右,我猜想可能是因为有许多作者的名字也叫 Adam 的缘故。

研究者

这里我还很好奇地研究了一下深度学习领域各位大牛的名字在论文中的变化情况,结果如下图所示。需要说明的是,这里的仅根据关键词统计的方式很粗糙,另外我还做了一些归一化操作。

从图表中可以看到,在所有提交的论文中,大约有 35% 提到了 bengio,但这里实际上有两个人: Samy 和 Yoshua,图中是两人加起来的结果。另外需要特别指出的是,在所有新论文中有超过 30% 都提到了 Geoff Hinton 大神,这一点很强大。

关键词

最后一部分是关键词。这里我首先统计了所有一元关键词和二元关键词在论文中的出现情况 ,并对当下和一年之前这些词汇的最大采用率做了对比。这里我作为基准采用的论文都是一些近两年被引用次数最高的优秀论文。以下是一些排名靠前的关键词:

以 ResNet 举例来说,它的相对热度之所以是 8.17,是因为它在 2016 年 3 月所有论文中的采用比是 1.044%,而到了今年 3 月,它的采用比则增长到了 8.53%,用两个百分比相除,就得到了 8.17。

从以上图表可以看出,在过去一年中最火热的机器学习创新技术包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上热词包括:风格转换(style transfer)、深度强化学习(deep RL)、神经网络翻译以及图像生成等。最后,在模型方面可以看到:全卷积网络(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets等热词。

与之相反,哪些关键词在过去一年中出现了下滑,变成了最冷门的关键词?我整理了以下排名:

可以看到,fractal(分形) 和 bayesian(贝叶斯)相关的内容在近一年的时间中热度衰减严重

总结

话说,看完了所有的分析结果,你不赶紧写一篇基于全卷积神经网络、BatchNorm、ResNet 和 GAN 技术,通过 Adam 算法优化,并应用于风格转换的论文么 ?


福利!CCF ADL深度学习前沿讲习班 线上视频开放购买!

2017 年 4 月 7-9 日,由 CCF 和 KDD China 联合主办的高端学术及技术系列性品牌活动,中国计算机学会学科前沿讲习班(CCF Advanced Disciplines Lectures,简称 ADL)第 78 期在北京中国科学院计算技术研究所举办。

本期主题“深度学习:从算法到应用”围绕当下大热的人工智能领域进行,邀请了 8 位来自学术界和工业界的学术大牛,在三天的时间里,向 400 多位学员讲授了人工智能领域的前沿技术和学术研究。

本次讲习班由中科院计算所研究员、博导,中科视拓创始人、董事长兼 CTO 山世光主持。而授课的8位大牛分别是

旷视科技 (Face++) 首席科学家孙剑

微软亚洲研究院主任研究员郑宇

地平线机器人创始人兼 CEO 余凯

地平线机器人技术联合创始人&算法副总裁黄畅

360 首席科学家颜水成

华为诺亚方舟实验室主任李航

思必驰创始人兼首席科学家俞凯

KDD China 主席杨强

为了让更多人工智能爱好者、业界从业者、科研研究者们都能看到 CCF ADL 课程,雷锋网人工智能培训平台 AI慕课学院获 CCF 独家线上视频版权,完整再现各路专家现场授课、交流的场景。

本次课程为付费课程,4月15日之前会在AI慕课学院独家上线,原价 4000 元的线下课程现在现时特价 499 元预售,有兴趣的学员可以访问 mooc.ai 搜索“CCF ADL",或者扫描下图二维码观看。


AI科技评论招聘季全新启动!


很多读者在思考,“我和AI科技评论的距离在哪里?”,答案就是:一封求职信。


AI科技评论自创立以来,围绕学界和业界鳌头,一直为读者提供专业的AI学界,业界,开发者内容报道。我们与学术界一流专家保持密切联系,获得第一手学术进展;我们深入巨头公司AI实验室,洞悉最新产业变化;我们覆盖A类国际学术会议,发现和推动学术界和产业界的不断融合。


而你只要加入我们,就有机会和我们一起记录这个风起云涌的人工智能时代!


如果你有下面任何两项,请投简历给我们:


*英语好,看论文毫无压力

*计算机科学或者数学相关专业毕业,好钻研

*新闻媒体相关专业,好社交

*态度好,学习能力强


简历投递:

北京:lizongren@leiphone.com

深圳:guoyixin@leiphone.com


登录查看更多
0

相关内容

深度学习可解释性研究进展
专知会员服务
98+阅读 · 2020年6月26日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
专知会员服务
235+阅读 · 2020年1月23日
KDD 2019放榜,接收率低至14%,你的论文中了吗?
机器之心
7+阅读 · 2019年4月30日
“搞机器学习没前途”
CSDN
236+阅读 · 2018年9月12日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
【GAN】生成式对抗网络GAN的研究进展与展望
产业智能官
12+阅读 · 2017年8月31日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
22+阅读 · 2019年11月24日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
53+阅读 · 2018年12月11日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
15+阅读 · 2018年6月23日
VIP会员
相关VIP内容
深度学习可解释性研究进展
专知会员服务
98+阅读 · 2020年6月26日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
专知会员服务
235+阅读 · 2020年1月23日
相关资讯
KDD 2019放榜,接收率低至14%,你的论文中了吗?
机器之心
7+阅读 · 2019年4月30日
“搞机器学习没前途”
CSDN
236+阅读 · 2018年9月12日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
【GAN】生成式对抗网络GAN的研究进展与展望
产业智能官
12+阅读 · 2017年8月31日
相关论文
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
22+阅读 · 2019年11月24日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
53+阅读 · 2018年12月11日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
15+阅读 · 2018年6月23日
Top
微信扫码咨询专知VIP会员