用狄拉克函数来构造非光滑函数的光滑近似

2021 年 10 月 23 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在机器学习中，我们经常会碰到不光滑的函数，但我们的优化方法通常是基于梯度的，这意味着光滑的模型可能更利于优化（梯度是连续的），所以就有了寻找非光滑函数的光滑近似的需求。事实上，本博客已经多次讨论过相关主题，比如《寻求一个光滑的最大值函数》[1]、《函数光滑化杂谈：不可导函数的可导逼近》[2] 等，但以往的讨论在方法上并没有什么通用性。

不过，笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》 [3] 学习到了一种比较通用的思路：用狄拉克函数来构造光滑近似。通用到什么程度呢？理论上有可数个间断点的函数都可以用它来构造光滑近似！个人感觉还是非常有意思的。

狄拉克函数

在很早之前的文章《诡异的 Dirac 函数》[4] 中，我们就介绍过狄拉克函数了。在现代数学中，狄拉克函数被定义为一个“泛函”而不是“函数”，但对于大多数读者来说，将它当作函数来理解是比较容易接受的。

简单来说，狄拉克函数满足：

1、；

2、；

3、。

直观来看，可以看成一个连续型的概率密度函数，采样空间为全体实数，但是只有处概率非零，也即均值为 0、方差也为 0，所以从中采样必然只能采样到 0，因此成立如下恒等式：

或者：

这可谓是狄拉克函数最重要的性质，也是我们后面主要用到的恒等式。

光滑近似

如果我们能找到的一个光滑近似，那么根据（2），我们就有

由于是光滑的，所以也是光滑的，这也就是说，就是的一个光滑近似！这便是借助狄拉克函数的光滑近似来构建的光滑近似的核心思路了，在这个过程中，对的形式和连续性都没有太多限制，比如允许有可数个间断点（如取整函数）。

那么狄拉克函数的光滑近似有哪些呢？现成的也有不少，比如：

或：

简单来说，就是找一个像正态分布那样钟形曲线的非负函数，想办法让钟形的宽度逐渐趋于 0，但保持积分为 1。还有另一个思路是留意到：

也就是说，狄拉克函数的积分是“单位阶跃函数” ，如果我们能找到的光滑近似，那么将它求导就得到狄拉克函数的光滑近似。而的光滑近似，就是所谓的“S形”曲线了，比如 sigmoid 函数，所以我们有：

常用的就是式（4）和式（7）两个近似。

ReLU激活

现在，我们就以上述思路为工具，推导 ReLU 激活函数的各种光滑近似。

比如利用式（7），得到：

当时，这便是 SoftPlus 激活函数。

如果换用式（4），那么结果是：

这个 ReLU 的光滑近似貌似还没被研究过。

当然，如果仅仅是 ReLU 函数的光滑近似，那么还有更简单的思路，比如留意到，这里的就是前面提到的单位阶跃函数，所以问题可以转变为求的光滑近似，我们已经知道 sigmoid 便是其中之一，所以很快得到：

当时，这便是 Swish 激活函数。而如果用（4）进行计算，那么就得到：

当时，就是 GeLU 激活函数。

▲ ReLU 函数及其几个光滑近似的图像

取整函数

可能读者觉得还不够意思，毕竟上面推导出来的都是现成的东西，而且不借助狄拉克函数也能推导出来。现在我们就来补充一个不怎么平凡的例子：取整函数的光滑近似。

取整函数分上取整和下取整两种，它们定义上有所不同，但是没有本质区别，这里以下取整为例子，我们记为：

假设为狄拉克函数的某个光滑近似，那么：

设的原函数为，那么关于的原函数就是，于是有：

对于我们有和，所以假设我们关心的范围满足，那么和，所以此时：

用作为例子，取，结果如下：

▲ 取整函数的光滑近似效果

可以看到，确实与蛮近似的，增大能进一步提高近似程度。

文章小结

本文介绍了一种利用狄拉克函数来构造光滑近似的方法，其特点是比较通用，对原函数没有太严格的要求。作为例子，我们利用它导出了 ReLU 函数的各种常见近似以及取整函数的一个光滑近似。

参考文献

[1] https://kexue.fm/archives/3290

[2] https://kexue.fm/archives/6620

[3] https://arxiv.org/abs/2109.13210

[4] https://kexue.fm/archives/1870

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

近似

关注 0

带核的因果模型:治疗效果，反事实，调解，和代理，57页ppt

专知会员服务

31+阅读 · 2022年2月21日

NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点

专知会员服务

24+阅读 · 2021年12月6日

【ICML2021】压缩最大似然

专知会员服务

22+阅读 · 2021年9月23日

逆优化: 理论与应用

专知会员服务

37+阅读 · 2021年9月13日

【ICML2021】元学习的分布依赖分析

专知会员服务

19+阅读 · 2021年8月15日

【ICML】应用于齐次神经网络的隐式正则自适应优化器

专知会员服务

12+阅读 · 2021年7月27日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

【NeurIPS 2020】对图神经网络更切实的对抗式攻击

专知会员服务

24+阅读 · 2020年11月5日

【经典书】计算机图形学数学结构，411页pdf，Mathematical Structures for CG

专知会员服务

92+阅读 · 2020年5月13日

【AI应用】Facebook-利用神经网络求解高等数学方程, Using neural networks to solve advanced mathematics equations

专知会员服务

34+阅读 · 2020年1月15日

交替方向乘子法（ADMM）算法原理详解

PaperWeekly

5+阅读 · 2022年1月21日

SquarePlus：可能是运算最简单的ReLU光滑近似

PaperWeekly

0+阅读 · 2022年1月20日

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

WGAN新方案：通过梯度归一化来实现L约束

PaperWeekly

1+阅读 · 2021年12月13日

Softmax 函数和它的误解

极市平台

0+阅读 · 2021年10月15日

神经网络常微分方程 (Neural ODEs) 解析

AI科技评论

42+阅读 · 2019年8月9日

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

计算：XGBoost背后的数学之美

论智

12+阅读 · 2018年8月20日

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

几类数论函数的密码学应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

代数免疫函数的性质与构造

国家自然科学基金

0+阅读 · 2013年12月31日

对称密码中的非线性函数设计与分析

国家自然科学基金

0+阅读 · 2012年12月31日

复几何中的对称性及其在数学物理中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

求解非光滑、非凸正则极小化问题的光滑化信赖域方法

国家自然科学基金

0+阅读 · 2012年12月31日

函数空间与逼近理论中若干问题的研究

国家自然科学基金

0+阅读 · 2011年12月31日

约束非线性全局优化的辅助函数方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

非线性最小二乘问题算法及应用

国家自然科学基金

0+阅读 · 2009年12月31日

粗集的线性结构及其在粒计算中的拓展研究

国家自然科学基金

0+阅读 · 2009年12月31日

正则对偶方法在二次规划问题中的理论与应用

国家自然科学基金

0+阅读 · 2008年12月31日

Functional Covering of Point Processes

Arxiv

0+阅读 · 2022年4月20日

The maximum likelihood degree of sparse polynomial systems

Arxiv

0+阅读 · 2022年4月19日

Low c-differentially uniform functions via an extension of Dillon's switching method

Arxiv

0+阅读 · 2022年4月19日

Convex-Concave Min-Max Stackelberg Games

Arxiv

0+阅读 · 2022年4月19日

Conditional Injective Flows for Bayesian Imaging

Arxiv

0+阅读 · 2022年4月19日

MDS and AMDS symbol-pair codes are constructed from repeated-root codes

Arxiv

0+阅读 · 2022年4月18日

VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration

Arxiv

0+阅读 · 2022年4月17日

Faster-Than-Native Alternatives for x86 VP2INTERSECT Instructions

Arxiv

0+阅读 · 2022年4月16日

A Statistical Decision-Theoretical Perspective on the Two-Stage Approach to Parameter Estimation

Arxiv

0+阅读 · 2022年4月15日

A deep first-order system least squares method for solving elliptic PDEs

Arxiv

1+阅读 · 2022年4月14日

VIP会员