Activation function is a key component in deep learning that performs non-linear mappings between the inputs and outputs. Rectified Linear Unit (ReLU) has been the most popular activation function across the deep learning community. However, ReLU contains several shortcomings that can result in inefficient training of the deep neural networks, these are: 1) the negative cancellation property of ReLU tends to treat negative inputs as unimportant information for the learning, resulting in a performance degradation; 2) the inherent predefined nature of ReLU is unlikely to promote additional flexibility, expressivity, and robustness to the networks; 3) the mean activation of ReLU is highly positive and leads to bias shift effect in network layers; and 4) the multilinear structure of ReLU restricts the non-linear approximation power of the networks. To tackle these shortcomings, this paper introduced Parametric Flatten-T Swish (PFTS) as an alternative to ReLU. By taking ReLU as a baseline method, the experiments showed that PFTS improved classification accuracy on SVHN dataset by 0.31%, 0.98%, 2.16%, 17.72%, 1.35%, 0.97%, 39.99%, and 71.83% on DNN-3A, DNN-3B, DNN-4, DNN- 5A, DNN-5B, DNN-5C, DNN-6, and DNN-7, respectively. Besides, PFTS also achieved the highest mean rank among the comparison methods. The proposed PFTS manifested higher non-linear approximation power during training and thereby improved the predictive performance of the networks.


翻译:激活功能是深层学习的一个关键组成部分,在投入和产出之间进行非线性绘图。校正线性单位(RELU)是深层学习界最受欢迎的激活功能。然而,RELU包含若干缺点,可能导致深神经网络培训效率低下,这些缺点是:1) ReLU的负面取消属性往往将负面投入视为学习的重要信息,导致业绩退化;2 ReLU固有的预先界定性质不大可能促进网络的进一步灵活性、直观性和稳健性;3) ReLU的启用平均值非常正,导致网络层的偏移效应;4 ReLU的多线性结构限制了这些网络的非线性近似能力。为了克服这些缺点,本文采用PFTS(PTS)作为学习的替代标准。 将ReLU作为基线方法,实验表明SVHN数据设置的精确度提高了0.31%、0.989%、2.6%、2.6%至3.3%的DNFS-NF培训方法在D-NF、0.9%、0.9%、2.6%的DNF-NF、1.35%的S、0.9%、0.9%和0.9%的SNFTF培训方法中提高了。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
40+阅读 · 2020年7月23日
最新《几何深度学习》教程,100页ppt,Geometric Deep Learning
专知会员服务
100+阅读 · 2020年7月16日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
ICLR 2019论文解读:量化神经网络
机器之心
9+阅读 · 2019年6月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2020年12月19日
Arxiv
0+阅读 · 2020年12月18日
Arxiv
0+阅读 · 2020年12月9日
Arxiv
6+阅读 · 2020年9月29日
Arxiv
7+阅读 · 2020年3月1日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
相关资讯
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
ICLR 2019论文解读:量化神经网络
机器之心
9+阅读 · 2019年6月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2020年12月19日
Arxiv
0+阅读 · 2020年12月18日
Arxiv
0+阅读 · 2020年12月9日
Arxiv
6+阅读 · 2020年9月29日
Arxiv
7+阅读 · 2020年3月1日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
9+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员