The activation function is an important component in Convolutional Neural Networks (CNNs). For instance, recent breakthroughs in Deep Learning can be attributed to the Rectified Linear Unit (ReLU). Another recently proposed activation function, the Exponential Linear Unit (ELU), has the supplementary property of reducing bias shift without explicitly centering the values at zero. In this paper, we show that learning a parameterization of ELU improves its performance. We analyzed our proposed Parametric ELU (PELU) in the context of vanishing gradients and provide a gradient-based optimization framework. We conducted several experiments on CIFAR-10/100 and ImageNet with different network architectures, such as NiN, Overfeat, All-CNN and ResNet. Our results show that our PELU has relative error improvements over ELU of 4.45% and 5.68% on CIFAR-10 and 100, and as much as 7.28% with only 0.0003% parameter increase on ImageNet. We also observed that Vgg using PELU tended to prefer activations saturating closer to zero, as in ReLU, except at the last layer, which saturated near -2. Finally, other presented results suggest that varying the shape of the activations during training along with the other parameters helps controlling vanishing gradients and bias shift, thus facilitating learning.


翻译:激活功能是进化神经网络的一个重要组成部分。 例如, 深学习中最近出现的突破可以归因于校正线条股( ReLU) 。 最近提出的另一个激活功能, 即光学线条股( ELU), 具有减少偏向转变的补充属性, 而没有将数值明确以零为中心。 在本文中, 我们显示, 学习ELU的参数化提高了它的性能。 我们分析了在渐变梯度背景下拟议的参数ELU( PELU) (PELU), 并提供了一个基于梯度的优化框架。 我们在CIFAR- 10/ 100和图像网络上进行了几次实验, 并有不同的网络结构, 如 NiN、 Overfeat、 All- CNN 和 ResNet 。 我们的结果显示, 我们的PELU 相对差差差于ELU 4.45% 和 5. 68% 的, 在 CIFAR- 10 和 100 上, 以及 高达7. 28% 的图像网络上只增加了0.003% 的偏差偏差偏差偏差点, 的偏向接近零的 饱和 图像优化框架。 我们还观察到, 图像LU 图像LU 上倾向于偏向更接近于启动饱和更近零的,,, 渐近于 渐变的 渐变变变的, 因此变变变变变的,, 在 列列 列 列 列 列 列 列 列

0
下载
关闭预览

相关内容

专知会员服务
159+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
22+阅读 · 2018年2月14日
VIP会员
相关论文
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
22+阅读 · 2018年2月14日
Top
微信扫码咨询专知VIP会员