Skip connection, is a widely-used technique to improve the performance and the convergence of deep neural networks, which is believed to relieve the difficulty in optimization due to non-linearity by propagating a linear component through the neural network layers. However, from another point of view, it can also be seen as a modulating mechanism between the input and the output, with the input scaled by a pre-defined value one. In this work, we investigate how the scale factors in the effectiveness of the skip connection and reveal that a trivial adjustment of the scale will lead to spurious gradient exploding or vanishing in line with the deepness of the models, which could be addressed by normalization, in particular, layer normalization, which induces consistent improvements over the plain skip connection. Inspired by the findings, we further propose to adaptively adjust the scale of the input by recursively applying skip connection with layer normalization, which promotes the performance substantially and generalizes well across diverse tasks including both machine translation and image classification datasets.


翻译:跳过连接是一种广泛使用的改进深神经网络性能和趋同的技术,据认为,它通过通过神经网络层传播线性组件,通过神经网络层传播线性组件,可以减轻由于非线性而造成的优化困难。然而,从另一个角度看,它也可以被视为输入和输出之间的调制机制,输入以预先定义的值缩放为缩放。在这项工作中,我们调查跳过连接有效性的尺度因素如何,并揭示,根据模型的深度,微小的调整将导致虚假的梯度爆炸或消失,这可以通过正常化,特别是层的正常化来解决,这促使对直线性跳过连接的不断改进。根据调查结果,我们进一步建议通过反复跳过与层正常化的连接,调整投入的规模,从而极大地促进业绩,并广泛贯穿各种任务,包括机器翻译和图像分类数据集。

0
下载
关闭预览

相关内容

跳跃连接可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度的反向传播,加快训练过程。
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
43+阅读 · 2020年8月19日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员