交叉熵和极大似然估计的再理解

2020 年 7 月 31 日 深度学习自然语言处理

来自:纸鱼AI

对于一个多分类问题(假设为 类),有数据集 。我们希望建立模型去建模概率分布 ,模型参数为

我们使用损失函数评估模型的好坏,可以采用两种方式来导出。

极大似然估计

由于是多分类问题,故样本空间上的 满足某个分类分布。由分类分布定义知,

其中, 是分布的参数,也是分布的输出概率向量。 是one-hot编码的标签向量。

例如对于一个天气4分类问题,输出概率向量如下(向右滑动)

p = {'rain'.14'snow'.37'sleet'.03'hail'.46}

则分类为snow的概率为

我们使用极大似然估计去估计分布参数 。注意:这里极大似然估计并,。

假设有 个样本: ,则似然函数为

我们期望最大化似然估计,即最小化负对数似然函数:

由于采用one-hot编码,故 的项乘积均为0,只需考虑 时。故上述函数可变形为:

交叉熵

信息论背景知识补习

Chaos processes more information.

信息一般可以被表述为不确定性的程度,有如下特性

  • 一定发生的事件没有信息
  • 很有可能发生的事件几乎没有信息
  • 随机事件拥有更多的信息
  • 独立事件可以增加信息——抛两次正面的骰子的信息量大于抛一次正面骰子的信息量

事件的信息可以形式化为:

熵用于衡量信息的多少,被定义为:

离散随机变量 的熵即:

以2为底,则可以衡量编码信息的比特数多少。在信息论中,信息与随机性是正相关的。高熵等于高随机性,需要更多的比特来编码。

例如,计算丢一枚硬币的熵(公式向右滑动)

则我们可以用1位比特来编码。

KL Divergence常用于衡量两个分布 的距离,被定义为(公式向右滑动)

故对于离散型随机变量而言(公式向右滑动)

source: wikipedia

注意,KL距离并不对称。

熵可以衡量编码信息的最少比特数,交叉熵则可以衡量使用Q的错误优化编码方案对具有分布P的x进行编码的最小比特数。其被定义为(公式向右滑动)

同时,其可以被写为(公式向右滑动):

由于 与模型参数无关,可以视为常数。故最小化KL距离等价于最小化交叉熵。

在深度学习中, 一般为真实标签的分布, 一般为模型预测输出的分布。

交叉熵损失函数

我们希望能够最小化真实分布 与模型输出分布 的距离,等价于最小化两者的交叉熵,其被定义为(公式向右滑动)

由此可见,最小化交叉熵和最小化负对数似然函数是等价的。

参考链接

[1] http://willwolf.io/2017/05/18/minimizing_the_negative_log_likelihood_in_english/

[2] https://www.quora.com/What-are-the-differences-between-maximum-likelihood-and-cross-entropy-as-a-loss-function

[3] https://jhui.github.io/2017/01/05/Deep-learning-Information-theory/

[4] https://en.wikipedia.org/wiki/Categorical_distribution



说个正事哈



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦


推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读


整理不易,还望给个在看!

登录查看更多
1

相关内容

【MIT】理解深度学习网络里单个神经元的作用
专知会员服务
28+阅读 · 2020年9月12日
(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建,134页ppt
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
119+阅读 · 2020年5月28日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
揭开神秘面纱: 一文详解高斯混合模型原理
数据猿
4+阅读 · 2018年2月13日
干货 | 一文搞懂极大似然估计
AI100
7+阅读 · 2017年12月3日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
GAN的数学原理
算法与数学之美
14+阅读 · 2017年9月2日
【原理】GAN的数学原理
GAN生成式对抗网络
8+阅读 · 2017年8月30日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【MIT】理解深度学习网络里单个神经元的作用
专知会员服务
28+阅读 · 2020年9月12日
(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建,134页ppt
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
119+阅读 · 2020年5月28日
相关资讯
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
揭开神秘面纱: 一文详解高斯混合模型原理
数据猿
4+阅读 · 2018年2月13日
干货 | 一文搞懂极大似然估计
AI100
7+阅读 · 2017年12月3日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
GAN的数学原理
算法与数学之美
14+阅读 · 2017年9月2日
【原理】GAN的数学原理
GAN生成式对抗网络
8+阅读 · 2017年8月30日
相关论文
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员