探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的

2020 年 12 月 2 日 PaperWeekly


©PaperWeekly 原创 · 作者|苏剑林
单位|追一科技
研究方向|NLP、神经网络


刚看到一个有意思的结论:
对于任意实数 x 及偶数 n,总有 ,即 的偶次泰勒展开式总是正的。
下面我们来看一下这个结论的证明,以及它在寻找 softmax 替代品中的应用。


证明过程

看上去这是一个很强的结果,证明会不会很复杂?其实证明非常简单,记:

当 n 是偶数时,我们有 ,即整体是开口向上的,所以我们只需要证明它的最小值大于 0 就行了,又因为它是一个光滑连续的多项式函数,所以最小值点必然是某个极小值点。那么换个角度想,我们只需要证明它所有的极值点(不管是极大还是极小)所对应的函数值都大于 0。
求极值点的方法自然是求导,而 的一个美妙之处在于,它的导函数满足:
极值点满足 ,那也就是满足 ,此时有:

因此我们就证明了 的所有极值点对应的函数值都非负了,所以恒有 ,并且还可以检验 并不是极值点,所以 可以改为 >。证毕。


应用场景

事实上,笔者是在 Arxiv 的新文章 Exploring Alternatives to Softmax Function [1] 看到这个结论的。原论文给出了一个基于数学归纳法的比较复杂的证明,上述证明则是笔者自己构思的,相对来说更加简单明了一些。

那么原论文为什么要得到这个结论呢?顾名思义,是为了探究 softmax 的替代品。我们知道,在机器学习中常用的将输出变为概率分布的方法是加上 softmax:

而由于 n 是偶数是 ,并且 在一定范围内还是 的近似,所以将 换成 也可以作为合理的归一化函数:

原论文做了几个实验,表明 比常规的 softmax 有一定的提升:

▲ softmax与其泰勒展开近似的效果比较

稍加评述

然而,在笔者看来,这个实验结果很难有什么说服力,毕竟所用的 baseline 效果太低了(都 2020 年了,你好歹跑个 ResNet 吧?)。此外,原论文也没有提供关于这个替代品的一些直观理解,纯粹是做了简单的实验然后说它 work 了,实在是过于粗糙。

不过,尽管原论文有诸多不足之处,笔者认为其提出的 倒是真的有可能是有效的。从 softmax 到 的过程,实际上是将激活函数从指数函数换成了多项式函数,这两者有什么区别呢?
我们知道 |x| 比较大的时候, 会增加/衰减得很快,这直接导致了 softmax 经常给出的置信度过高的现象(概率值非 0 即 1),而相对来说,多项式函数的增长没有那么猛,不容易出现置信度过高问题,从而没那么容易过拟合。
类似的改动也出现在经典的降维方法 t-SNE 中,t-SNE 的前身是 SNE,SNE 就是构造了类似 softmax 的指数形式的概率分布,然后被发现有“Crowding 问题”(参考最小熵原理:“物以类聚”之从图书馆到词向量),最后 t-SNE 将指数换成二次函数就好很多了,感觉 跟 t-SNE 的思想有一定的相通之处。


文章小结

本文的主要目的是介绍“ 的偶次泰勒展开式总是正的”这个颇有意思的结论,并且顺带介绍了它在寻找 softmax 替代品中的应用。

参考文献

[1] https://arxiv.org/abs/2011.11538

更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
0

相关内容

专知会员服务
73+阅读 · 2020年12月7日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从零推导支持向量机 (SVM)
AI科技评论
9+阅读 · 2019年2月7日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
一文了解采样方法
AI100
5+阅读 · 2018年7月6日
SVM大解密(附代码和公式)
机器学习算法与Python学习
6+阅读 · 2018年5月22日
简明条件随机场CRF介绍 | 附带纯Keras实现
PaperWeekly
23+阅读 · 2018年5月22日
从零开始学习「张氏相机标定法」(五)优化算法正传
计算机视觉life
5+阅读 · 2018年3月25日
Arxiv
0+阅读 · 2021年1月26日
Arxiv
6+阅读 · 2020年12月8日
A Modern Introduction to Online Learning
Arxiv
20+阅读 · 2019年12月31日
Deep Co-Training for Semi-Supervised Image Segmentation
VIP会员
相关资讯
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从零推导支持向量机 (SVM)
AI科技评论
9+阅读 · 2019年2月7日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
一文了解采样方法
AI100
5+阅读 · 2018年7月6日
SVM大解密(附代码和公式)
机器学习算法与Python学习
6+阅读 · 2018年5月22日
简明条件随机场CRF介绍 | 附带纯Keras实现
PaperWeekly
23+阅读 · 2018年5月22日
从零开始学习「张氏相机标定法」(五)优化算法正传
计算机视觉life
5+阅读 · 2018年3月25日
Top
微信扫码咨询专知VIP会员