这样的Softmax你真的不了解！

会员服务 ·

这样的Softmax你真的不了解！

2020 年 7 月 23 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要8分钟

跟随小博主，每天进步一丢丢

每日英文

Do not, for one repulse, forgo the purpose that you resolved to effort.

不要因一次挫败，就放弃你原来决心想达到的目的。

Recommender：云不见

作者：Sewade Ogun

翻译：王萌澳门城市大学(深度学习自然语言处理公众号)

Softmax函数是分类模型中使用的主要函数之一。它通常在机器学习课程的早期介绍里。它以长度为d的实值向量作为输入，并将其归一化为概率分布。这很容易理解和解释，但其核心是一些需要注意的陷阱。这包括其在实践中的实现，数值稳定性和应用。这篇文章是关于该主题的专题文章。

我们将介绍以下内容：

介绍
Softmax数值稳定性
Log Softmax
Log-Softmax推导
Softmax温度机制
结论

1. 介绍

Softmax是一个非线性函数，主要用于多类分类的分类器输出。给定一个向量[x1,x2,x3,…xd]，i=1,2,…d，此时softmax函数形式如下：

其中d为分类数。

所有指数值的总和，是一个归一化常数，有助于确保它保持概率分布的特性，即：a)值总和必须为1。b)它们必须介于0和1之间（含0和1）。

例如，给定一个向量x=[10,2,40,4]，对每个元素的计算softmax；

对向量中的每个值取幂e^x=[e¹⁰,e²,e⁴⁰,e⁴]，
计算总和 ∑e^x=e¹⁰+e²+e⁴⁰+e⁴=2.353…e¹⁷
然后用每个e^xi除以计算总和sm(x)=[9.35762297e⁻¹⁴,3.13913279e⁻¹⁷,1.00000000e⁺⁰⁰,2.31952283e⁻¹⁶]

用像numpy这种数值计算库可以很容易地实现，

问题

观察输出你可以看出什么？
输出总和为1吗？

这些指标是我们下次要讨论的内容吗?

2. Softmax数值稳定性

从上面的softmax概率，我们可以推断出，在数值范围很大的情况下，softmax可能会变得数值不稳定。考虑将输入向量中的第3个值更改为10000，然后重新评估softmax。

“nan”所代表的不是一个数字时就会发生溢出或下溢的。但是，为什么是 0值和 nan？这是否暗示我们无法从向量中获得概率分布？

问题：你能找出导致溢出的原因吗？

取像10000这样的大数的幂会得到一个非常非常大的数。大约是2¹⁰⁰⁰⁰。这导致溢出。

我们可以做得更好吗？当然，我们可以。根据我们的原始方程式，

在x处减去一个常数c

我们只是把xi平移了一个常数。如果这个移动常数c是向量的最大值，max(x)，那么我们就可以稳定softmax的计算。

问题：我们得到与原始softmax相同的答案吗？

这里可以证明它等同于原始的softmax函数：

产生相同的初始softmax

这个稳定的softmax用numpy实现如下所示：

如果我们将其应用于我们的旧问题：

好了,问题解决了! ! !

问题：为什么softmax中所有其他值都为0。这是否意味着它们没有出现的可能性？

3. Log Softmax

对softmax计算的严格评估显示出幂和除法模式。我们可以减少这些计算吗？相反，我们可以优化log-softmax。这样做能给我们很好的特性，例如；

数值稳定性。
因为log(a/b)=log(a)−log(b)，所以log softmax的梯度变得可叠加。
它有更少的除法和乘法计算，加法有更小的计算量。
log也是一个单调递增的函数。我们可以免费得到这个属性。

引用一个关于使用log softmax超过softmax在 stackoverflow的回答：

“使用logsoftmax比使用softmax多很多优势，包括实际原因，如改进的数值性能和梯度优化。这些优势对于实现特别重要，特别是当训练一个模型时在计算上具有挑战性和昂贵成本的时候。使用log-softmax而不是softmax的核心是使用log概率胜于概率，这方面具有很好的信息理论解释。当用于分类器时，log-softmax会在无法预测正确的分类时严重惩罚模型。惩罚是否能很好地解决您的问题尚待您测试，因此log-softmax和softmax都值得使用。”

如果我们将对数函数简单地应用于概率分布，我们将得到：