ReLU的继任者Mish:一个新的state of the art的激活函数

2019 年 10 月 31 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~



导读

对激活函数的研究一直没有停止过,ReLU还是统治着深度学习的激活函数,不过,这种情况有可能会被Mish改变。


Diganta Misra的一篇题为“Mish: A Self Regularized Non-Monotonic Neural Activation Function”的新论文介绍了一个新的深度学习激活函数,该函数在最终准确度上比Swish(+.494%)和ReLU(+ 1.671%)都有提高。


我们的小型FastAI团队使用Mish代替ReLU,打破了之前在FastAI全球排行榜上准确性得分记录的一部分。结合Ranger优化器,Mish激活,Flat + Cosine 退火和自注意力层,我们能够获得12个新的排行榜记录!



我们12项排行榜记录中的6项。每条记录都是用Mish而不是ReLU。(蓝色高亮显示,400 epoch的准确率为94.6,略高于我们的20 epoch的准确率为93.8:)


作为我们自己测试的一部分,对于ImageWoof数据集的5 epoch测试,我们可以说:


Mish在高显著性水平上优于ReLU (P < 0.0001)。(FastAI论坛@ Seb)


Mish已经在70多个基准上进行了测试,包括图像分类、分割和生成,并与其他15个激活函数进行了比较。



ReLU和Mish的对比,Mish的梯度更平滑


我做了一个Mish的PyTorch实现,用它替换了ReLU,没有做任何其他更改,并在困难的ImageWoof数据集上使用广泛的优化器(Adam、Ranger、RangerLars、Novograd等)对它进行了测试。


我发现Mish在训练稳定性、平均准确率(1-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有了全面的提高,与本文的结果相匹配或超过。


下面是Ranger Optimizer + Mish与FastAI排行榜相比:



Ranger优化器(RAdam和前瞻性)+ Mish激活超过当前的FastAI 排行榜评级。注意平稳、稳定的训练曲线。


FastAI排行榜为5和20个epochs,ImageWoof数据集(难)。


这是通过简单地在FastAI的XResNet50中使用Mish替换ReLU,并使用各种优化器(上面的Ranger结果)运行来实现的。没有任何其他变化,包括学习率。注意:优化Mish的学习率很可能会获得更好的结果。本文提出了相对于ReLU而言,较低的学习率供参考。


Mish检查了理想的激活函数应该是什么(平滑、处理负号等)的所有内容,并提出了一套泛化的初始测试。在过去的一年里,我测试了大量新的激活函数,其中大多数都失败了,从基于MNIST的论文,到基于更真实的数据集的测试。因此,Mish可能最终会为深度学习实践者提供一种新的激活功能,并有很大的机会超过长期占据主导地位的ReLU。


Mish的性质


我通过下面的PyTorch代码链接提供了Mish,以及一个修改过的XResNet (MXResNet),这样你就可以快速地将Mish放入你的代码中,并立即进行测试!


让我们后退一步,了解什么是Mish,为什么它可能改进ReLU上的训练,以及在神经网络中使用Mish的一些基本步骤。



什么是Mesh?


直接看Mesh的代码会更简单一点,简单总结一下,Mish=x * tanh(ln(1+e^x))。


其他的激活函数,ReLU是x = max(0,x),Swish是x * sigmoid(x)。


PyTorch的Mish实现:


Mish的PyTorch实现


Tensorflow中的Mish函数:


Tensorflow:x = x *tf.math.tanh(F.softplus(x))


Mish和其他的激活函数相比怎么样?


下图显示了Mish与其他一些激活函数的测试结果。这是多达73个测试的结果,在不同的架构,不同的任务上:


Mish对比很多基准测试中的激活函数



为什么Mish表现这么好?


以上无边界(即正值可以达到任何高度)避免了由于封顶而导致的饱和。理论上对负值的轻微允许允许更好的梯度流,而不是像ReLU中那样的硬零边界。


最后,可能也是最重要的,目前的想法是,平滑的激活函数允许更好的信息深入神经网络,从而得到更好的准确性和泛化。


尽管如此,我测试了许多激活函数,它们也满足了其中的许多想法,但大多数都无法执行。这里的主要区别可能是Mish函数在曲线上几乎所有点上的平滑度。


这种通过Mish激活曲线平滑性来推送信息的能力如下图所示,在本文的一个简单测试中,越来越多的层被添加到一个测试神经网络中,而没有一个统一的函数。随着层深的增加,ReLU精度迅速下降,其次是Swish。相比之下,Mish能更好地保持准确性,这可能是因为它能更好地传播信息:



更平滑的激活功能允许信息更深入地流动……注意,随着层数的增加,ReLU快速下降。



如何把Mish放到你自己的网络中?


Mish的PyTorch和FastAI的源代码可以在github的两个地方找到:


1、官方Mish github:

https://github.com/digantam98/Mish

2、非官方的Mish使用inline提升速度:

https://github.com/lessw2020/mish

3 、我们与Ranger和Mish (MXResNet的一部分)一起的FastAI的记录:https://github.com/lessw2020/Ranger-Mish-ImageWoof-5


复制mish.py到你的相关目录,并包含它,然后将你的网络激活函数指向它:


导入Mish函数,把激活函数设置为Mish


另外,FastAI用户可以使用修改后的XResNet加载和测试,使用Mish而不是ReLU。复制文件mxresnet.py到本地目录或路径:


接下来指定相关的ResNet大小(18、34、50、101、152),并加载体系结构(cnn_learner,等等)。下面是我如何加载mxresnet50,使用Ranger优化:




总结


ReLU有一些已知的弱点,但是通常它执行起来很轻,并且在计算上很轻。Mish具有较强的理论渊源,在测试中,就训练稳定性和准确性而言,Mish的平均性能优于ReLU。


复杂度只稍微增加了一点(V100 GPU和Mish,相对于ReLU,每epoch增加大约1秒),考虑到训练稳定性的提高和最终精度的提高,稍微增加一点时间似乎是值得的。


最终,在今年测试了大量新的激活函数后,Mish在这方面处于领先地位,我怀疑它很有可能成为AI未来的新ReLU。


英文原文:https://medium.com/@lessw/meet-mish-new-state-of-the-art-ai-activation-function-the-successor-to-relu-846a6d93471f



-End-


*延伸阅读





CV细分方向交流群


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~



△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  

登录查看更多
0

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
33+阅读 · 2020年4月15日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
15+阅读 · 2019年10月15日
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
深度学习优化算法总结(SGD,AdaGrad,Adam等)
极市平台
34+阅读 · 2019年4月30日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
深度学习面试100题(第31-35题)
七月在线实验室
8+阅读 · 2018年7月16日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
激活函数初学者指南
论智
6+阅读 · 2018年5月15日
入门 | 一文概览深度学习中的激活函数
深度学习世界
4+阅读 · 2017年11月3日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关资讯
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
深度学习优化算法总结(SGD,AdaGrad,Adam等)
极市平台
34+阅读 · 2019年4月30日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
深度学习面试100题(第31-35题)
七月在线实验室
8+阅读 · 2018年7月16日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
激活函数初学者指南
论智
6+阅读 · 2018年5月15日
入门 | 一文概览深度学习中的激活函数
深度学习世界
4+阅读 · 2017年11月3日
相关论文
Top
微信扫码咨询专知VIP会员