Reddit热议被引最多的机器学习论文：上世纪LSTM称霸，何恺明今年被引1.8w居首

会员服务 ·

Reddit热议被引最多的机器学习论文：上世纪LSTM称霸，何恺明今年被引1.8w居首

2019 年 12 月 28 日 新智元

新智元报道

来源：reddit

整理：大明

【新智元导读】机器学习和AI今天的繁荣离不开前辈们的辛勤耕耘。近日，Reddit网友总结了20世纪和21世纪被引用数最多的一些机器学习论文。这些论文的作者很多都已成为“大神”，正是因为他们的“披荆斩棘”，才有了今天的“花团锦绣”，吃水不忘打井人，一起来看看这些文章吧！戳右边链接上新智元小程序了解更多！

20世纪，LTSM创始人Schmidhuber 1997年的论文Long short-term memory被引数目前位列第一 ，达到2.6w次。超过了此前一直排名第一的反向传播算法的一系列文章。

进入21世纪，更多在竞赛中大放异彩的论文获得了更高的引用， 包括提出AlexNet（2012，5.3w次）和Deeper CUDA CNN（2014，3.2w），并分别赢得当年的ImageNet大赛。

单年被引用最高的文章则是何恺明团队2015年提出ResNet的文章 （3.6w，2019年被引用1.8w次）。

20世纪：LSTM以2.6w次居榜首，超越经典的“反向传播”算法

Long short-term memory，S Hochreiter，J Schmidhuber，1997（截至2019年，共被引用2.6w次）

论文链接：

https://www.bioinf.jku.at/publications/older/2604.pdf

这篇文章被引次数目前已超过Rumelhart等人的关于反向传播算法的一系列论文。（1985，1986，1987）。注意别被Google Scholar误导了，有时候它会错误地将Rumelhart的不同论文和著作合在一起计算，包括：

Learning internal representations by errorpropagation ，DE Rumelhart，GE Hinton，RJ Williams，1985（2.5w）

章节链接：

https://web.stanford.edu/class/psych209a/ReadingsByDate/02_06/PDPVolIChapter8.pdf

Parallel distributed processing，JL McClelland，DE Rumelhart，PDP研究小组，1987（2.4w）

http://web.stanford.edu/~jlmcc/papers/PDP/Volume%201/Chap1_Part1_PDP86.pdf

Learning representations byback-propagating errors，DE Rumelhart，GE Hinton，RJ Williams， 1986（1.9w）

论文链接：

https://www.iro.umontreal.ca/~vincentp/ift3395/lectures/backprop_old.pdf

Reddit这篇文章的作者认为，反向传播算法的这些论文和著作不再排名被引用数第一，这是件好事，因为这些文章中没有引用反向传播的真正发明者，并且作者从未对此进行过更正。

Schmidhuber称，反向传播算法实际上是Linnainmaa在1970年提出的。Schmidhuber认为Hinton、Bengio和LeCun于2015年6月在Nature上发表的《深度学习》一文中将反向传播算法诞生归功于自己是贪他人之功。

从被引用数增加速度上来看，LSTM论文每年新增被引用次数超过了Rumelhart的所有反向传播论文的总和。 并且超过了LeCun和Bengio（1998）关于卷积神经网络的引用最多的这篇论文：

Gradient-based learning applied to documentrecognition，Y LeCun，L Bottou，Y Bengio，P Haffner，IEEE86（11），2278-2324，1998（2.3w）

论文链接：

http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

21世纪：ImageNet冠军受热捧，何恺明ResNet今年被引1.8w

进入21世纪，尤其是2010年之后，机器学习热度逐渐上升，有3篇深度学习研究论文被引用次数超过了上世纪发表的这些文章。这些文章都与神经网络在ImageNet图像识别中的应用有关（2012、2014、2015）。其中一篇论文提出的AlexNet赢得了2012年ImageNet挑战赛。另一篇论文提出的Deeper CUDA CNN则赢得了2014年的ImageNet挑战赛。

A Krizhevsky, I Sutskever, GE Hinton. Imagenet classification with deep convolutional neural networks. NeuerIPS 2012 (5.3w)

论文链接：

https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

B. K Simonyan, A Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014(3.2w)

论文链接：

https://arxiv.org/pdf/1409.1556.pdf

今年被引用最多的论文是2015年一篇的残差网络（ResNet）的论文，该论文提出的基于ResNet的深度学习在2015年的ImageNet 竞赛中获胜。论文一作何恺明正式踏上大神之路。

K He, X Zhang, S Ren, J Sun. Deep ResidualLearning for Image Recognition. CVPR 2016（3.6w，其中2019年被引用1.8w）

论文链接：

https://arxiv.org/pdf/1512.03385.pdf

深度学习革命的核心：一切源自LSTM?

值得注意的是，进入21世纪后这些“竞赛奖拿到手软的、基于深度GPU的CNN”也可以追溯到Schmidhuber实验室的研究。

在AlexNet的论文中，一作Krizhevsky引用了DanNet，这是第一个赢得图像识别挑战的CUDA CNN，也是第一个表现超过人类的CNN。而DanNet是Schmidhuber团队的Dan Ciresan提出的，在AlexNet诞生之前已经赢得了4个图像识别挑战赛的冠军：ICDAR 2011手写汉字识别大赛、IJCNN 2011交通标志识别大赛、ISBI 2012图像分割大赛，以及CPR 2012医疗影像识别大赛。

2015年的ResNet比DanNet和AlexNet更深入，效果更好。此文引用了Highway Net（Srivastava＆Greff＆Schmidhuber，2015），这是一个特例。从某种意义上讲，“Highway Net本质上LSTM网络的前馈版本。

大多数提及LSTM的文章均引用本文开头提到的1997年的LSTM论文。 但是，Schmidhuber在本人表示，关于LSTM的“基本见解”可以追溯到Seep Hochreiter的1991年的学位论文，他认为这篇文章是“机器学习历史上最重要的文件之一”。（他还向其他学生表示感谢：“通过我后来的学生Felix Gers，AlexGraves和其他人的工作，“ LSTM及其训练程序得到了进一步的改进”。）

实际上，LSTM的原理对于循环网络和前馈网络都是必不可少的。无论是智能手机app，还有Deepmind的《星际争霸2》冠军AI，或是OpenAI的Dota AI都离不开它。可以说，它是深度学习革命的核心。

参考链接：

https://www.reddit.com/r/MachineLearning/comments/eg8mmn/d_the_1997_lstm_paper_by_hochreiter_schmidhuber/