用狄拉克函数来构造非光滑函数的光滑近似

2021 年 10 月 23 日 PaperWeekly


©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络


在机器学习中,我们经常会碰到不光滑的函数,但我们的优化方法通常是基于梯度的,这意味着光滑的模型可能更利于优化(梯度是连续的),所以就有了寻找非光滑函数的光滑近似的需求。事实上,本博客已经多次讨论过相关主题,比如《寻求一个光滑的最大值函数》[1]、《函数光滑化杂谈:不可导函数的可导逼近》[2] 等,但以往的讨论在方法上并没有什么通用性。

不过,笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》 [3] 学习到了一种比较通用的思路:用狄拉克函数来构造光滑近似。通用到什么程度呢?理论上有可数个间断点的函数都可以用它来构造光滑近似!个人感觉还是非常有意思的。



狄拉克函数

在很早之前的文章《诡异的 Dirac 函数》[4] 中,我们就介绍过狄拉克函数了。在现代数学中,狄拉克函数被定义为一个“泛函”而不是“函数”,但对于大多数读者来说,将它当作函数来理解是比较容易接受的。

简单来说,狄拉克函数 满足:
1、
2、
3、
直观来看, 可以看成一个连续型的概率密度函数,采样空间为全体实数 ,但是只有 处概率非零,也即均值为 0、方差也为 0,所以从中采样必然只能采样到 0,因此成立如下恒等式:

或者:

这可谓是狄拉克函数最重要的性质,也是我们后面主要用到的恒等式。


光滑近似
如果我们能找到 的一个光滑近似 ,那么根据(2),我们就有

由于 是光滑的,所以 也是光滑的,这也就是说, 就是 的一个光滑近似!这便是借助狄拉克函数的光滑近似来构建 的光滑近似的核心思路了,在这个过程中,对 的形式和连续性都没有太多限制,比如允许 有可数个间断点(如取整函数 )。
那么狄拉克函数的光滑近似有哪些呢?现成的也有不少,比如:

或:

简单来说,就是找一个像正态分布那样钟形曲线的非负函数,想办法让钟形的宽度逐渐趋于 0,但保持积分为 1。还有另一个思路是留意到:
也就是说,狄拉克函数的积分是“单位阶跃函数” ,如果我们能找到 的光滑近似,那么将它求导就得到狄拉克函数的光滑近似。而 的光滑近似,就是所谓的“S形”曲线了,比如 sigmoid 函数 ,所以我们有:
常用的就是式(4)和式(7)两个近似。



ReLU激活

现在,我们就以上述思路为工具,推导 ReLU 激活函数 的各种光滑近似。
比如利用式(7),得到:

时,这便是 SoftPlus 激活函数。
如果换用式(4),那么结果是:

这个 ReLU 的光滑近似貌似还没被研究过。

当然,如果仅仅是 ReLU 函数的光滑近似,那么还有更简单的思路,比如留意到 ,这里的 就是前面提到的单位阶跃函数,所以问题可以转变为求 的光滑近似,我们已经知道 sigmoid 便是其中之一,所以很快得到:

时,这便是 Swish 激活函数。而如果用(4)进行计算,那么就得到:

时,就是 GeLU 激活函数。
▲ ReLU 函数及其几个光滑近似的图像


取整函数

可能读者觉得还不够意思,毕竟上面推导出来的都是现成的东西,而且不借助狄拉克函数也能推导出来。现在我们就来补充一个不怎么平凡的例子:取整函数的光滑近似。

取整函数分上取整和下取整两种,它们定义上有所不同,但是没有本质区别,这里以下取整为例子,我们记为:

假设 为狄拉克函数的某个光滑近似,那么:

的原函数为 ,那么 关于 的原函数就是 ,于是有:

对于 我们有 ,所以假设我们关心的范围满足 ,那么 ,所以此时:

作为例子,取 ,结果如下:

▲ 取整函数的光滑近似效果

可以看到,确实与 蛮近似的,增大 能进一步提高近似程度。


文章小结
本文介绍了一种利用狄拉克函数来构造光滑近似的方法,其特点是比较通用,对原函数没有太严格的要求。作为例子,我们利用它导出了 ReLU 函数的各种常见近似以及取整函数的一个光滑近似。

参考文献

[1] https://kexue.fm/archives/3290
[2] https://kexue.fm/archives/6620
[3] https://arxiv.org/abs/2109.13210
[4] https://kexue.fm/archives/1870


特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点
专知会员服务
23+阅读 · 2021年12月6日
专知会员服务
20+阅读 · 2021年9月23日
逆优化: 理论与应用
专知会员服务
35+阅读 · 2021年9月13日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
11+阅读 · 2021年7月27日
专知会员服务
18+阅读 · 2020年12月9日
【NeurIPS 2020】对图神经网络更切实的对抗式攻击
专知会员服务
23+阅读 · 2020年11月5日
交替方向乘子法(ADMM)算法原理详解
PaperWeekly
3+阅读 · 2022年1月21日
SquarePlus:可能是运算最简单的ReLU光滑近似
PaperWeekly
0+阅读 · 2022年1月20日
再谈变分自编码器(VAE):估计样本概率密度
PaperWeekly
3+阅读 · 2021年12月23日
WGAN新方案:通过梯度归一化来实现L约束
PaperWeekly
1+阅读 · 2021年12月13日
Softmax 函数和它的误解
极市平台
0+阅读 · 2021年10月15日
神经网络常微分方程 (Neural ODEs) 解析
AI科技评论
40+阅读 · 2019年8月9日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
计算:XGBoost背后的数学之美
论智
12+阅读 · 2018年8月20日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Convex-Concave Min-Max Stackelberg Games
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关VIP内容
NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点
专知会员服务
23+阅读 · 2021年12月6日
专知会员服务
20+阅读 · 2021年9月23日
逆优化: 理论与应用
专知会员服务
35+阅读 · 2021年9月13日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
11+阅读 · 2021年7月27日
专知会员服务
18+阅读 · 2020年12月9日
【NeurIPS 2020】对图神经网络更切实的对抗式攻击
专知会员服务
23+阅读 · 2020年11月5日
相关资讯
交替方向乘子法(ADMM)算法原理详解
PaperWeekly
3+阅读 · 2022年1月21日
SquarePlus:可能是运算最简单的ReLU光滑近似
PaperWeekly
0+阅读 · 2022年1月20日
再谈变分自编码器(VAE):估计样本概率密度
PaperWeekly
3+阅读 · 2021年12月23日
WGAN新方案:通过梯度归一化来实现L约束
PaperWeekly
1+阅读 · 2021年12月13日
Softmax 函数和它的误解
极市平台
0+阅读 · 2021年10月15日
神经网络常微分方程 (Neural ODEs) 解析
AI科技评论
40+阅读 · 2019年8月9日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
计算:XGBoost背后的数学之美
论智
12+阅读 · 2018年8月20日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员