45篇让你跟上AI时代的论文推荐，含神经网络／正则化／NLP等

2019 年 9 月 7 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

作者：黄海广

https://zhuanlan.zhihu.com/p/69217673

来源：知乎，已获作者授权转载，禁止二次转载。

AI领域的发展会是IT中最快的。我们所看到的那些黑科技，其后面无不堆积了大量的论文。而且都是最新、最前沿的论文。

从某种调度来讲，他们所用的技术跟书籍里的内容确实不是一个时代。要想与时俱进，就必须改变思路——从论文入手。

今天给大家介绍45篇让你跟上AI时代的论文。

一、神经网络基础部分

No1 wide_deep模型论文：

关于神经元、全连接网络之类的基础结构，想必每个AI学者都有了解。那么你是否真的了解全连接网络中深层与浅层的关系呢？来看看wide_deep模型吧。这篇论文会使你对全连接有个更深刻的理解。

关于该模型的更多介绍可以参考论文：arxiv.org/pdf/1606.0779

在wide_deep模型中，wide模型和deep模型具有各自不同的分工。

—wide模型：一种浅层模型。它通过大量的单层网络节点，实现对训练样本的高度拟合性。它的缺点是泛化能力很差。

—deep模型：一种深层模型。它通过多层的非线性变化，使模型具有很好的泛化性。它的缺点是拟合度欠缺。

将二者结合起来——用联合训练方法共享反向传播的损失值来进行训练—可以使两个模型综合优点，得到最好的结果。

No2 wide_deep模型论文：

为什么Adam被广泛使用？光会用可不行，还得把原理看懂。这样出去喷一喷，才会显得更有面子。

Adam的细节请参阅论文《Adam: A Method for Stochastic Optimization》，该论文的链接网址是：arxiv.org/pdf/1412.6980

No3 Targeted Dropout模型论文：

你还在用普通的Dropout吗？我已经开始用Targeted Dropout了。比你的又快，又好。你不知道吧，赶紧学习一下。

Targeted Dropout不再像原有的Dropout那样按照设定的比例随机丢弃部分节点，而是对现有的神经元进行排序，按照神经元的权重重要性来丢弃节点。这种方式比随机丢弃的方式更智能，效果更好。更多理论见以下论文：https://openreview.net/pdf?id=HkghWScuoQ

二、图像分类部分

No4 Xception模型论文：

在那个图像分类的时代，谷歌的Xception系列，像x战警一样，一个一个的打破记录。其中的技术也逐渐成为AI发展的知识体系。有必要看一下。或许会对自己的工作有所启发。

详细情况请查看原论文《Xception: Deep Learning with Depthwise Separable Convolutions》，该论文网址是：arxiv.org/abs/1610.0235

No5 残差结构论文：

运气好到没朋友，现有模型，后完善理论指的就是残差结构这哥们。他的传奇导致即使到今天的AI技术，也无法将它割舍，就来常微分方程都得拿它比肩。快来学学吧。用处大着呢。好多模型都拿他当先锋。

利用残差结构，可以使得网络达到上百层的深度。详情请参阅原始论文《Deep ResidualLearning for Image Recognition》，该论文网址是：arxiv.org/abs/1512.0338

No6 空洞卷积论文：

NasNet的招牌动作，虽然不是出于NASNet，但是却被人家用得如火纯青。有时不得不惊叹，机器设计出来的模型还真实跟人设计的不一样！

想知道空洞卷积的感受也为什么与层数呈指数级关系吗？

细节请查看原论文《Multi-scale context aggregation by dilated convolutions》，该论文网址是：arxiv.org/abs/1511.0712

No7 DenseNet论文：

这个模型使我想到了“一根筋”，再次证明了只有轴的人才能成大事！另类的模型，神奇的效果，快来体验一下吧。这可是比华佗还牛的神医哦！

有关DenseNet模型的细节，请参考原始论文《Densely Connected Convolutional Networks》，该论文的连接是：arxiv.org/abs/1608.0699

No8 EfficientNet模型论文：

知道目前位置图像分类界谁是老大吗？来，看看这个！

EfficientNet模型的论文地址如下：arxiv.org/pdf/1905.1194

No9 Grad-CAM模型论文：

如果你能把神经元搞得透彻，你也会想到这个点子。不想聊太多！一个字“绝”！这TMD才叫卷积网络的可视化！

详细情况请参阅论文《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》，该论文的链接网址是：arxiv.org/pdf/1610.0239

No10 分类模型泛化能力论文：

知道为啥都喜欢使用ResNet模型当先锋吗？运气好就是运气好！好到大家都喜欢用它，还说不出为啥它那么好！反正就是好，不信的话看看这篇论文的实验结果。

论文中，在选取模型的建议中，多次提到了ResNet模型。原因是，ResNet模型在Imgnet数据集上输出的特征向量所表现的泛化能力是最强的。具体可以参考以下论文：arxiv.org/pdf/1805.0897

三、批量正则化部分

No11 批量正则化论文：

这个没的说，必修课，不懂的化，会被鄙视成渣渣！

论文《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》，该论文网址是：arxiv.org/abs/1502.0316

No12 实例归一化论文：

时代不同了，批量归一化也升级了，赶紧学学新的归一化吧。

在对抗神经网络模型、风格转换这类生成式任务中，常用实例归一化取代批量归一化。因为，生成式任务的本质是——将生成样本的特征分布与目标样本的特征分布进行匹配。生成式任务中的每个样本都有独立的风格，不应该与批次中其他的样本产生太多联系。所以，实例归一化适用于解决这种基于个体的样本分布问题。详细说明见以下链接：arxiv.org/abs/1607.0802

No13 ReNorm算法论文：

ReNorm算法与BatchNorm算法一样，注重对全局数据的归一化，即对输入数据的形状中的N维度、H维度、W维度做归一化处理。不同的是，ReNorm算法在BatchNorm算法上做了一些改进，使得模型在小批次场景中也有良好的效果。具体论文见以下链接：arxiv.org/pdf/1702.0327

No14 GroupNorm算法论文：

GroupNorm算法是介于LayerNorm算法和InstanceNorm算法之间的算法。它首先将通道分为许多组（group），再对每一组做归一化处理。

GroupNorm算法与ReNorm算法的作用类似，都是为了解决BatchNorm算法对批次大小的依赖。具体论文见下方链接：arxiv.org/abs/1803.0849

No15 SwitchableNorm算法论文：

我们国人做产品都喜欢这么干！all in one ,好吧。既然那么多批量归一化的方法。来，来，来，我们来个all in one吧。不服来辩，我这啥都有！

SwitchableNorm算法是将BN算法、LN算法、IN算法结合起来使用，并为每个算法都赋予权重，让网络自己去学习归一化层应该使用什么方法。具体论文见下方链接：

arxiv.org/abs/1806.1077

四、注意力部分

No16 大道至简的注意力论文：

把AI搞成玄学也就算了！居然还扯到道家了！谷歌的工程师真是中外通吃啊！搞出来了一个只用注意力就能做事的模型，连卷积都不要了！你说好玩不好玩！至简不至简！刺激不刺激！

大名鼎鼎的Attention is All You Need 注意力机制论文

注意力机制因2017年谷歌的一篇论文Attention is All You Need而名声大噪。下面就来介绍该技术的具体内容。如果想了解更多，还可以参考原论文，具体地址如下：

arxiv.org/abs/1706.0376

No17-18 孪生注意力论文：

好比LSTM与GRU一样，注意力他们家也除了一对双胞胎，长得略微有点不同。但是功能一样，都能吃能喝，还能注意。老虎老鼠傻傻的不清楚！

—BahdanauAttention：arxiv.org/abs/1409.0473

—LuongAttention：arxiv.org/abs/1508.0402

No19 各自升级的孪生注意力论文：

话说这对双胞胎，出生后就分开了。各自学的不同的语言，一个学习汉语，一个学习中文。若干年后，见面，发现二者的能力还是一样！

BahdanauAttention注意力升级成了normed_BahdanauAttention，而LuongAttention注意力升级成了scaled_LuongAttention。都一样的效果，你爱用哪个用哪个吧！

例如：

在BahdanauAttention类中有一个权重归一化的版本（normed_BahdanauAttention），它可以加快随机梯度下降的收敛速度。在使用时，将初始化函数中的参数normalize设为True即可。

具体可以参考以下论文：arxiv.org/pdf/1602.0786

No20 单调注意力机制论文：

老公主动表忠心，我以后不看别的美女。老婆觉得不够，再加个限制：你以后不准看别的女人！于是单调注意力就出来了。

单调注意力机制（monotonic attention），是在原有注意力机制上添加了一个单调约束。该单调约束的内容为：

（1）假设在生成输出序列过程中，模型是以从左到右的方式处理输入序列的。

（2）当某个输入序列所对应的输出受到关注时，在该输入序列之前出现的其他输入将不能在后面的输出中被关注。

即已经被关注过的输入序列，其前面的序列中不再被关注。

更多描述可以参考以下论文：arxiv.org/pdf/1704.0078

No21 混合注意力机制论文：

这个注意力很强大，比一般的注意力专注的地方更多，信息更丰富。我已经注意你很久了！呵呵呵~~~

因为混合注意力中含有位置信息，所以它可以在输入序列中选择下一个编码的位置。这样的机制更适用于输出序列大于输入序列的Seq2Seq任务，例如语音合成任务。

具体可以参考以下论文：arxiv.org/pdf/1506.0750

五、高级的卷积网络知识

No22 胶囊网络与动态路由的论文：

这是一股为图像分类降温的寒风，深刻而又尖锐的点出了卷积网络的硬伤！从事最大池化再无翻身之日。

虽然胶囊网络在实际应用中，不像它的理论那么牛，但是对AI的帮助，卷积的理解是革命性的。非常值得一读。另外，这也是一篇绝对让你对数学彻底绝望的论文。花几根白头发把里面的算法啃下来吧。这样你与大神就能更近一步。

胶囊网络分为主胶囊与数字胶囊，主胶囊与数字胶囊之间的耦合系数是通过训练得来的。在训练过程中，耦合系数的更新不是通过反向梯度传播实现的，而是采用动态路由选择算法完成的。该算法来自以下论文链接：arxiv.org/pdf/1710.0982

目前胶囊网络的研究还处于初级阶段，随着人们研究的深入，相信这些问题会得到解决。

No23 矩阵胶囊网络与EM路由算法：

如果你觉得不过瘾，那么还可以再看一篇。继续自虐一下。

带有EM（期望最大化）路由的矩阵胶囊网络是动态路由胶囊网络的一个改进版本。论文链接如下：https://openreview.net/pdf?id=HJWLfGWRb

No24 胶囊网络的其它用处：

胶囊网络混身是宝，但就是自己不争气。这也说明还有上升的空间。就拿其中一个动态路由算法来讲，居然比普通的注意力还好。

看完之后，相信你一定会手痒！要不要也试试？把你的注意力换一下。值得你尝试，会有彩蛋的！

该论文的实践也证明，与原有的注意力机制相比，动态路由算法确实在精度上有所提升。具体介绍可见以下论文：arxiv.org/pdf/1806.0150

No25 卷积网络新玩法TextCNN模型：

早先小编在一个项目中，自己用卷积网络处理字符数据。自己感觉很Happy。没想到，无意间居然发现了一篇同样这么干的论文。居然还有个名字，叫TextCNN。哎！可惜啊！小编文化少，只会写代码，不会写论文。

TextCNN模型是利用卷积神经网络对文本进行分类的算法，由 Yoon Kim 在 Convolutional Neural Networks for Sentence Classification 一文中提出。论文地址：

arxiv.org/pdf/1408.5882

六、图像内容处理部分

No26 FPN模型论文（包含了ROIAlign的匹配算法）：

要是搞计算机视觉，还是要建议看一下。非常的基础。也是图像分割方面的用得最多得模型。

FPN的原理是：将骨干网络最终特征层和中间特征层的多个尺度的特征以类似金字塔的形式融合在一起。最终的特征可以兼顾两个特点——指向收敛目标的特征准确、特征语义信息丰富。更多信息可以参考论文：

ROIAlign层中的匹配算法也来自于这篇FPN论文，链接如下：arxiv.org/abs/1612.0314

No27 Mask R-CNN模型论文：

效果好，代码多！硬货！来啃吧！

Mask R-CNN模型是一个简单、灵活、通用的对象实例分割框架。它能够有效地检测图像中的对象，并为每个实例生成高质量的分割掩码，还可以通过增加不同的分支完成不同的任务。它可以完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种任务。具体细节可以参考以下论文：arxiv.org/abs/1703.0687

No28 YOLO V3模型论文：

这个模型的提点就是快！目标识别强烈推荐

YOLO V3模型的更多信息可以参考以下链接中的论文：

https://pjreddie.com/media/files/papers/YOLOv3.pdf

No29 Anchor-Fress模型--FCOS模型论文：

随着AI技术的进步Anchor-Fress模型死灰复燃（早先是YOLO V1那一批模型），这次不一样的是彻底干掉带Anchor的模型。训练起来那就一个爽！妈妈再也不用为我准备单独的Anchor标签了。

与YOLO V1相比， FCOS模型的思想与YOLO V1模型非常相似，唯一不同的是FCOS模型没有像YOLOv1那样只考虑中心附近的点，而是利用了ground truth边框中所有的点来进行预测边框。并且通过 center-ness 分支来抑制那些效果不行的检测边框。这样FCOS 就可以改善YOLO V1模型总会漏掉部分检测边框的缺点。

相关论文地址：arxiv.org/abs/1904.0135

No30 Anchor-Fress模型--CornerNet-Lite模型论文：

一样也是Anchor-Fress模型，与FCOS效果差不多少，具体看一下论文吧

CornerNet-Lite模型。相关论文地址：arxiv.org/pdf/1904.0890

No31 栈式沙漏网络模型--Hourglass论文：

最初用户人的姿态估计，在符合模型中也是常被使用的模型。论文地址：

arxiv.org/abs/1603.0693

No32 OCR必修课——STN模型论文：

可以让模型自动仿射变化，你说牛不牛！要学OCR，就得从这个开始。

有关STN模型的论文链接如下：arxiv.org/abs/1506.0202

七、循环神经网络部分

No33 QRNN模型论文：

在RNN模型的cell里，如果还只知道LSTM和GRU。那就太low了。快了补补吧：

如果想更多了解QRNN，可以参考以下论文：arxiv.org/abs/1611.0157

No34 SRU模型论文：

接着来，各种RNN的Cell。又漂亮，又好吃！

SRU单元在本质上与QRNN单元很像。从网络构建上看，SRU单元有点像QRNN单元中的一个特例，但是又比QRNN单元多了一个直连的设计。

若需要研究SRU单元更深层面的理论，可以参考如下论文：arxiv.org/abs/1709.0275

No35 IndRNN模型论文：

再补一个，这可都是好cell啊！

将IndRNN单元配合ReLu等非饱和激活函数一起使用，会使模型表现出更好的鲁棒性。

有关IndRNN单元的更多理论，可以参考论文：arxiv.org/abs/1803.0483

No36 IndRNN模型论文：

最后，再来一个cell，如想要了解更多关于JANET单元的内容，可以参考以下论文：

arxiv.org/abs/1804.0484

八、AI合成部分

No37-38 Tacotron与Tacotron-2模型论文：

AI合成部分的经典模型，以上结构来自Tacotron与Tacotron-2两个结构，更多内容可以参考以下两篇论文：arxiv.org/pdf/1703.1013

arxiv.org/pdf/1712.0588

No39 DeblurGAN模型论文：

图片合成的论文太多了。这里简单列几个，大体原理和思路了解，即可。

DeblurGAN模型是一个对抗神经网络模型，由生成器模型和判别器模型组成。

—生成器模型，根据输入的模糊图片模拟生成清晰的图片。

—判别器模型，用在训练过程中，帮助生成器模型达到更好的效果。

具体可以参考论文：arxiv.org/pdf/1711.0706

No40 AttGAN模型论文：

同样，这也是个图片合成的。不同的是多属性合成，相对比较有意思。

AttGAN模型由两个子模型组成：

（1）利用编码器模型将图片特征提取出来。

（2）将提取的特征与指定的属性值参数一起输入编码器模型中，合成出最终的人脸图片。

更多细节可以参考论文：arxiv.org/pdf/1711.1067

No41 RNN.WGAN模型论文：

可以合成文本的GAN。离散数据也能干！

RNN.WGAN模型使用了WGAN模型的方法进行训练。详细做法可以参考如下论文：

arxiv.org/abs/1704.0002

九、多任务学习

No42 MKR模型论文：

多任务学习模型有必要了解一下。这里推荐一个论文给你看看。

MKR是一个多任务学习的端到端框架。该框架能够将两个不同任务的低层特征抽取出来，并融合在一起实现联合训练，从而达到最优的结果。有关MKR的更多介绍可以参考以下链接：

arxiv.org/pdf/1901.0890

十、NLP部分

No43 BERT模型论文：

如果你搞NLP，那么这个就不用我来介绍了。如果你准备搞NLP,那么赶紧来看看这个，跟上时代。

BERT相关论文链接：arxiv.org/abs/1810.0480

在BERT之后，又出了好多优秀的模型。但是，还是先把这个啃下来，再看别的才不费劲。

十一、模型攻防

No44 FGSM模型论文：

攻击模型的经典方法。值得掌握。

FGSM（Fast Gradient Sign Method）是一种生成对抗样本的方法。该方法的描述如下：

（1）将输入图片当作训练的参数，使其在训练过程中可以被调整。

（2）在训练时，通过损失函数诱导模型对图片生成错误的分类。

（3）当多次迭代导致模型收敛后，训练出来的图片就是所要得到的对抗样本。

具体可以参考论文：arxiv.org/pdf/1607.0253

No45 黑箱攻击论文：

基于雅可比（Jacobian）矩阵的数据增强方法，是一种常用的黑箱攻击方法。该方法可以快速构建出近似于被攻击模型的决策边界，从而使用最少量的输入样本。即：构建出代替模型，并进行后续的攻击操作。

详细请见如下链接：arxiv.org/abs/1602.0269

这里只是列了一些基础的论文。如果这45篇论文看完。可以保证你再看到大厂的产品时，不会感觉有代沟。

-完-

*延伸阅读

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~