Softmax 函数和它的误解

会员服务 ·

Softmax 函数和它的误解

2021 年 10 月 15 日 极市平台

↑ 点击蓝字关注极市平台

作者 | Prasant Kumar

来源 | CV技术指南

编辑 | 极市平台

‍‍‍

极市导读

Softmax是个大家都熟悉的激活函数，然而，很多人只知道它的表达式，它在网络中的位置，而对一些具体的原因和细节却回答不上来。这篇文章给了相应的介绍。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

Softmax 是一个数学函数，用于对 0 和 1 之间的值进行归一化。

在本文中，您将了解：

什么是 Softmax 激活函数及其数学表达式？
它是如何使用 argmax() 函数实现的？
为什么 Softmax 只用在神经网络的最后一层？
对 Softmax 的误解

什么是 Softmax 激活函数及其数学表达式？

在深度学习中，使用 Softmax 作为激活函数，对 0 到 1 之间的向量中每个值的输出和尺度进行归一化。Softmax 用于分类任务。在网络的最后一层，会生成一个 N 维向量，分类任务中的每个类对应一个向量。

Softmax 用于对 0 和 1 之间的那些加权和值进行归一化，并且它们的和等于 1，这就是为什么大多数人认为这些值是类的概率，但这是一种误解，我们将在本文中讨论它。

实现 Softmax 函数的公式：

使用这个数学表达式，我们计算每类数据的归一化值。这里 θ(i) 是我们从展平层得到的输入。

计算每个类的归一化值，分子是类的指数值，分母是所有类的指数值之和。使用 Softmax 函数，我们得到 0 到 1 之间的所有值，所有值的总和变为等于 1。因此人们将其视为概率，这是他们的误解。

它如何使用 argmax() 函数？

在对每个类应用上述数学函数后，Softmax 会为每个类计算一个介于 0 和 1 之间的值。

现在我们每个类都有几个值，为了分类输入属于哪个类，Softmax 使用 argmax() 给出了应用 Softmax 后具有最大值的值的索引。

为什么 Softmax 只用在神经网络的最后一层？

现在进入重要部分，Softmax 仅用于最后一层以对值进行归一化，而其他激活函数（relu、leaky relu、sigmoid 和其他各种）用于内层。

如果我们看到其他激活函数，如 relu、leaky relu 和 sigmoid，它们都使用唯一的单个值来带来非线性。他们看不到其他值是什么。

但是在 Softmax 函数中，在分母中，它取所有指数值的总和来归一化所有类的值。它考虑了范围内所有类的值，这就是我们在最后一层使用它的原因。要通过分析所有的值来知道Input属于哪个类。

对 Softmax 的误解

关于 Softmax 的第一个也是最大的误解是，它通过归一化值的输出是每个类的概率值，这完全错误。这种误解是因为这些值的总和为 1，但它们只是归一化值而不是类的概率。

在最后一层并不是单独使用 Sotmax，我们更喜欢使用 Log Softmax，它只是对来自 Softmax 函数的归一化值进行对数。

Log Softmax 在数值稳定性、更便宜的模型训练成本和 Penalizes Large error（误差越大惩罚越大）方面优于 Softmax。

这就是在神经网络中用作激活函数的 Softmax 函数。相信读完本文后你对它已经有了一个清楚的了解。

原文链接：https://medium.com/artificialis/softmax-function-and-misconception-4248917e5a1c

- END -

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载～

极市干货

神经网络：视觉神经网络模型优秀开源工作：timm库使用方法和最新代码解读

技术综述：综述：神经网络中 Normalization 的发展历程｜ CNN轻量化模型及其设计原则综述

算法技巧（trick）： 8点PyTorch提速技巧汇总｜图像分类算法优化技巧

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

Softmax

关注 0

自编码器导论，26页pdf

专知会员服务

42+阅读 · 2022年1月18日

【ICLR2022】Transformers亦能贝叶斯推断

专知会员服务

25+阅读 · 2021年12月23日

【干货书】概率，统计与数据，513页pdf

专知会员服务

140+阅读 · 2021年11月27日

周志华教授：关于深度学习的一点思考

专知会员服务

122+阅读 · 2021年11月23日

【ICML2021】张量分解的隐式正则化

专知会员服务

21+阅读 · 2021年8月24日

【ICML】应用于齐次神经网络的隐式正则自适应优化器

专知会员服务

12+阅读 · 2021年7月27日

1小时学习Pytorch！最新《深度学习Pytorch》简明视频教程，45页ppt

专知会员服务

187+阅读 · 2020年8月10日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

285+阅读 · 2019年12月2日

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

为什么深度学习是非参数的？

THU数据派

1+阅读 · 2022年3月29日

浅谈LabelSmooth两种实现及推导

极市平台

0+阅读 · 2021年12月12日

从三角不等式到Margin Softmax

PaperWeekly

0+阅读 · 2021年10月7日

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

从最优化的角度看待 Softmax 损失函数

极市平台

31+阅读 · 2019年2月21日

一文道尽softmax loss及其变种

极市平台

14+阅读 · 2019年2月19日

干货 | 深入理解深度学习中的激活函数

计算机视觉life

16+阅读 · 2019年1月29日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

超图的张量表示及其谱理论研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机信息下的一些函数恢复问题

国家自然科学基金

0+阅读 · 2013年12月31日

随机变量结构的模型论

国家自然科学基金

0+阅读 · 2013年12月31日

大维随机矩阵经验谱分布函数的收敛以及统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

非线性机制对ENSO循环的影响

国家自然科学基金

0+阅读 · 2012年12月31日

关于亚纯函数论和几何函数论中的几个问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于蒙特卡洛的QCD求和规则在强子物理中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

由圈空间和键空间所构成的张量的若干问题的研究

国家自然科学基金

0+阅读 · 2012年12月31日

泛函不等式与随机微分方程上的大偏差问题

国家自然科学基金

0+阅读 · 2012年12月31日

A Fixed-Parameter Algorithm for the Schrijver Problem

Arxiv

0+阅读 · 2022年4月19日

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Arxiv

0+阅读 · 2022年4月18日

Homogeneity in the instrument-treatment association is not sufficient for the Wald estimand to equal the average causal effect for a binary instrument and a continuous exposure

Arxiv

0+阅读 · 2022年4月18日

Estimation of smooth functionals in high-dimensional models: bootstrap chains and Gaussian approximation

Arxiv

0+阅读 · 2022年4月16日

Alternating Mahalanobis Distance Minimization for Stable and Accurate CP Decomposition

Arxiv

0+阅读 · 2022年4月14日

Relaxing Equivariance Constraints with Non-stationary Continuous Filters

Arxiv

0+阅读 · 2022年4月14日

Aspect Based Sentiment Analysis with Gated Convolutional Networks

Arxiv

12+阅读 · 2018年5月18日

Additive Margin Softmax for Face Verification

Arxiv

11+阅读 · 2018年1月18日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

VIP会员