No2 wide_deep模型论文为什么Adam被广泛使用?光会用可不行,还得把原理看懂。这样出去喷一喷,才会显得更有面子。Adam的细节请参阅论文《Adam: A Method for Stochastic Optimization》,该论文的链接网址是:https://arxiv.org/pdf/1412.6980v8.pdf
二、图像分类部分No4 Xception模型论文在那个图像分类的时代,谷歌的Xception系列,像x战警一样,一个一个的打破记录。其中的技术也逐渐成为AI发展的知识体系。有必要看一下。或许会对自己的工作有所启发。详细情况请查看原论文《Xception: Deep Learning with Depthwise Separable Convolutions》,该论文网址是:https://arxiv.org/abs/1610.02357
No5 残差结构论文运气好到没朋友,现有模型,后完善理论指的就是残差结构这哥们。他的传奇导致即使到今天的AI技术,也无法将它割舍,就连常微分方程都得拿它比肩。快来学学吧。用处大着呢。好多模型都拿他当先锋。利用残差结构,可以使得网络达到上百层的深度。详情请参阅原始论文《Deep ResidualLearning for Image Recognition》,该论文网址是:https://arxiv.org/abs/1512.03385
No6 空洞卷积论文NasNet的招牌动作,虽然不是出于NASNet,但是却被人家用得炉火纯青。有时不得不惊叹,机器设计出来的模型还真是跟人设计的不一样!想知道空洞卷积的感受野为什么与层数呈指数级关系吗?细节请查看原论文《Multi-scale context aggregation by dilated convolutions》,该论文网址是:https://arxiv.org/abs/1511.07122v3
No8 EfficientNet模型论文知道目前位置图像分类界谁是老大吗? 来,看看这个!EfficientNet模型的论文地址如下:https://arxiv.org/pdf/1905.11946.pdfNo9 Grad-CAM模型论文如果你能把神经元搞得透彻,你也会想到这个点子。不想聊太多!一个字“绝”!这TMD才叫卷积网络的可视化!详细情况请参阅论文《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》,该论文的链接网址是:https://arxiv.org/pdf/1610.02391.pdf
三、批量正则化部分No11 批量正则化论文这个没的说,必修课,不懂的话,会被鄙视成渣渣!论文《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》,该论文网址是:https://arxiv.org/abs/1502.03167
No15 SwitchableNorm算法论文我们国人做产品都喜欢这么干!all in one ,好吧。既然那么多批量归一化的方法。来,来,来,我们来个all in one吧。不服来辩,我这啥都有!SwitchableNorm算法是将BN算法、LN算法、IN算法结合起来使用,并为每个算法都赋予权重,让网络自己去学习归一化层应该使用什么方法。具体论文见下方链接:https://arxiv.org/abs/1806.10779四、注意力部分No16 大道至简的注意力论文把AI搞成玄学也就算了!居然还扯到道家了!谷歌的工程师真是中外通吃啊!搞出来了一个只用注意力就能做事的模型,连卷积都不要了!你说好玩不好玩!至简不至简!刺激不刺激!大名鼎鼎的Attention is All You Need 注意力机制论文注意力机制因2017年谷歌的一篇论文Attention is All You Need而名声大噪。下面就来介绍该技术的具体内容。如果想了解更多,还可以参考原论文,具体地址如下:https://arxiv.org/abs/1706.03762No17-18 孪生注意力论文好比LSTM与GRU一样,注意力他们家也出了一对双胞胎,长得略微有点不同。但是功能一样,都能吃能喝,还能注意。老虎老鼠傻傻的不清楚!—BahdanauAttention:https://arxiv.org/abs/1409.0473—LuongAttention:https://arxiv.org/abs/1508.04025No19 各自升级的孪生注意力论文话说这对双胞胎,出生后就分开了。各自学的不同的语言,一个学习汉语,一个学习中文。若干年后,见面,发现二者的能力还是一样!BahdanauAttention注意力升级成了normed_BahdanauAttention,而LuongAttention注意力升级成了scaled_LuongAttention。都一样的效果,你爱用哪个用哪个吧!例如:在BahdanauAttention类中有一个权重归一化的版本(normed_BahdanauAttention),它可以加快随机梯度下降的收敛速度。在使用时,将初始化函数中的参数normalize设为True即可。具体可以参考以下论文:https://arxiv.org/pdf/1602.07868.pdfNo20 单调注意力机制论文老公主动表忠心,我以后不看别的美女。老婆觉得不够,再加个限制:你以后不准看别的女人!于是单调注意力就出来了。单调注意力机制(monotonic attention),是在原有注意力机制上添加了一个单调约束。该单调约束的内容为:(1)假设在生成输出序列过程中,模型是以从左到右的方式处理输入序列的。(2)当某个输入序列所对应的输出受到关注时,在该输入序列之前出现的其他输入将不能在后面的输出中被关注。即已经被关注过的输入序列,其前面的序列中不再被关注。更多描述可以参考以下论文:https://arxiv.org/pdf/1704.00784.pdf
No21 混合注意力机制论文这个注意力很强大,比一般的注意力专注的地方更多,信息更丰富。我已经注意你很久了!呵呵呵~~~因为混合注意力中含有位置信息,所以它可以在输入序列中选择下一个编码的位置。这样的机制更适用于输出序列大于输入序列的Seq2Seq任务,例如语音合成任务。具体可以参考以下论文:https://arxiv.org/pdf/1506.07503.pdf五、高级的卷积网络知识No22 胶囊网络与动态路由的论文这是一股为图像分类降温的寒风,深刻而又尖锐的点出了卷积网络的硬伤! 从此最大池化再无翻身之日。虽然胶囊网络在实际应用中,不像它的理论那么牛,但是对AI的帮助,卷积的理解是革命性的。非常值得一读。另外,这也是一篇绝对让你对数学彻底绝望的论文。花几根白头发把里面的算法啃下来吧。这样你与大神就能更近一步。胶囊网络分为主胶囊与数字胶囊,主胶囊与数字胶囊之间的耦合系数是通过训练得来的。在训练过程中,耦合系数的更新不是通过反向梯度传播实现的,而是采用动态路由选择算法完成的。该算法来自以下论文链接:https://arxiv.org/pdf/1710.09829.pdf目前胶囊网络的研究还处于初级阶段,随着人们研究的深入,相信这些问题会得到解决。No23 矩阵胶囊网络与EM路由算法如果你觉得不过瘾,那么还可以再看一篇。继续自虐一下。带有EM(期望最大化)路由的矩阵胶囊网络是动态路由胶囊网络的一个改进版本。论文链接如下:https://openreview.net/pdf?id=HJWLfGWRbNo24 胶囊网络的其它用处胶囊网络混身是宝,但就是自己不争气。这也说明还有上升的空间。就拿其中一个动态路由算法来讲,居然比普通的注意力还好。看完之后,相信你一定会手痒!要不要也试试?把你的注意力换一下。值得你尝试,会有彩蛋的!该论文的实践也证明,与原有的注意力机制相比,动态路由算法确实在精度上有所提升。具体介绍可见以下论文:https://arxiv.org/pdf/1806.01501.pdfNo25 卷积网络新玩法TextCNN模型早先小编在一个项目中,自己用卷积网络处理字符数据。自己感觉很Happy。没想到,无意间居然发现了一篇同样这么干的论文。居然还有个名字,叫TextCNN。哎!可惜啊!小编文化少,只会写代码,不会写论文。TextCNN模型是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 Convolutional Neural Networks for Sentence Classification 一文中提出。论文地址:https://arxiv.org/pdf/1408.5882.pdf六、图像内容处理部分