一文总结熵,交叉熵与交叉熵损失

2020 年 1 月 14 日 深度学习自然语言处理

作者 | Vijendra Singh

编译 | VK

来源 | Medium

整理 | 磐创AI


交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时,我很难理解它背后的直觉。在google了不同材料后,我能够得到一个令人满意的理解,我想在这篇文章中分享它。

为了全面理解,我们需要按照以下顺序理解概念:自信息, 熵,交叉熵和交叉熵损失

自信息

"你对结果感到惊讶的程度"

一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果是第i个结果的概率,那么我们可以把自信息s表示为:

现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果应该发生的概率。自信息的加权平均值就是熵(e),如果有n个结果,则可以写成:

交叉熵

现在,如果每个结果的实际概率为却有人将概率估计为怎么办。在这种情况下,每个事件都将以的概率发生,但是公式里的自信息就要改成(因为人们以为结果的概率是)。现在,在这种情况下,加权平均自信息就变为了交叉熵c,它可以写成:

交叉熵总是大于熵,并且仅在以下情况下才与熵相同 ,你可以观看
https://www.desmos.com/calculator/zytm2sf56e的插图来帮助理解。

交叉熵损失

紫色线代表蓝色曲线下的面积,估计概率分布(橙色线),实际概率分布(红色线)

在上面我提到的图中,你会注意到,随着估计的概率分布偏离实际/期望的概率分布,交叉熵增加,反之亦然。因此,我们可以说,最小化交叉熵将使我们更接近实际/期望的分布,这就是我们想要的。这就是为什么我们尝试降低交叉熵,以使我们的预测概率分布最终接近实际分布的原因。因此,我们得到交叉熵损失的公式为:

在只有两个类的二分类问题的情况下,我们将其命名为二分类交叉熵损失,以上公式变为:




方便交流学习,备注: 昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多: 机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦


推荐阅读:
【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文
【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing
【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译
【一分钟论文】Semi-supervised Sequence Learning半监督序列学习
【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing
详解Transition-based Dependency parser基于转移的依存句法解析器
经验 | 初入NLP领域的一些小建议
学术 | 如何写一篇合格的NLP论文
干货 | 那些高产的学者都是怎样工作的?
一个简单有效的联合模型
近年来NLP在法律领域的相关研究工作




让更多的人知道你“在看”
登录查看更多
5

相关内容

交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
何恺明大神的「Focal Loss」,如何更好地理解?
PaperWeekly
10+阅读 · 2017年12月28日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
干货 | 机器学习算法大总结(ML岗面试常考)
机器学习算法与Python学习
6+阅读 · 2017年8月1日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
VIP会员
相关VIP内容
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
何恺明大神的「Focal Loss」,如何更好地理解?
PaperWeekly
10+阅读 · 2017年12月28日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
15+阅读 · 2017年9月18日
干货 | 机器学习算法大总结(ML岗面试常考)
机器学习算法与Python学习
6+阅读 · 2017年8月1日
Top
微信扫码咨询专知VIP会员