交叉熵和极大似然估计的再理解

会员服务 ·

交叉熵和极大似然估计的再理解

2020 年 7 月 31 日 深度学习自然语言处理

来自：纸鱼AI

对于一个多分类问题(假设为类)，有数据集。我们希望建立模型去建模概率分布，模型参数为。

我们使用损失函数评估模型的好坏，可以采用两种方式来导出。

极大似然估计

由于是多分类问题，故样本空间上的满足某个分类分布。由分类分布定义知，

其中，是分布的参数，也是分布的输出概率向量。是one-hot编码的标签向量。

例如对于一个天气4分类问题，输出概率向量如下(向右滑动)：

p = {'rain': .14, 'snow': .37, 'sleet': .03, 'hail': .46}

则分类为snow的概率为

我们使用极大似然估计去估计分布参数。注意：这里极大似然估计并，。

假设有个样本：，则似然函数为

我们期望最大化似然估计，即最小化负对数似然函数：

由于采用one-hot编码，故的项乘积均为0，只需考虑时。故上述函数可变形为：

交叉熵

信息论背景知识补习

Chaos processes more information.

信息一般可以被表述为不确定性的程度，有如下特性

一定发生的事件没有信息
很有可能发生的事件几乎没有信息
随机事件拥有更多的信息
独立事件可以增加信息——抛两次正面的骰子的信息量大于抛一次正面骰子的信息量

事件的信息可以形式化为：

熵用于衡量信息的多少，被定义为：

离散随机变量的熵即：

若以2为底，则可以衡量编码信息的比特数多少。在信息论中，信息与随机性是正相关的。高熵等于高随机性，需要更多的比特来编码。

例如，计算丢一枚硬币的熵(公式向右滑动)：

则我们可以用1位比特来编码。

KL Divergence常用于衡量两个分布的距离，被定义为(公式向右滑动)

故对于离散型随机变量而言(公式向右滑动)，

source: wikipedia

注意，KL距离并不对称。

熵可以衡量编码信息的最少比特数，交叉熵则可以衡量使用Q的错误优化编码方案对具有分布P的x进行编码的最小比特数。其被定义为(公式向右滑动)：

同时，其可以被写为(公式向右滑动)：

由于与模型参数无关，可以视为常数。故最小化KL距离等价于最小化交叉熵。

在深度学习中，一般为真实标签的分布，一般为模型预测输出的分布。

交叉熵损失函数

我们希望能够最小化真实分布与模型输出分布的距离，等价于最小化两者的交叉熵，其被定义为(公式向右滑动)：

由此可见，最小化交叉熵和最小化负对数似然函数是等价的。

参考链接

[1] http://willwolf.io/2017/05/18/minimizing_the_negative_log_likelihood_in_english/

[2] https://www.quora.com/What-are-the-differences-between-maximum-likelihood-and-cross-entropy-as-a-loss-function

[3] https://jhui.github.io/2017/01/05/Deep-learning-Information-theory/

[4] https://en.wikipedia.org/wiki/Categorical_distribution

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

整理不易，还望给个在看！

登录查看更多

相关内容

极大似然

关注 0

【MIT】理解深度学习网络里单个神经元的作用

专知会员服务

29+阅读 · 2020年9月12日

(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建，134页ppt

专知会员服务

91+阅读 · 2020年7月30日

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

【实用书】数据科学基础，484页pdf，Foundations of Data Science

专知会员服务

121+阅读 · 2020年5月28日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

70+阅读 · 2020年3月2日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

专知会员服务

84+阅读 · 2020年2月25日

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

48+阅读 · 2019年12月19日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

数盟

16+阅读 · 2018年4月20日

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

揭开神秘面纱：一文详解高斯混合模型原理

数据猿

4+阅读 · 2018年2月13日

干货 | 一文搞懂极大似然估计

AI100

7+阅读 · 2017年12月3日

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

GAN的数学原理

算法与数学之美

15+阅读 · 2017年9月2日

【原理】GAN的数学原理

GAN生成式对抗网络

8+阅读 · 2017年8月30日

A Mathematical Introduction to Generative Adversarial Nets (GAN)

Arxiv

27+阅读 · 2020年9月1日

Optimization for deep learning: theory and algorithms

Arxiv

105+阅读 · 2019年12月19日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

TVAE: Triplet-Based Variational Autoencoder using Metric Learning

Arxiv

3+阅读 · 2018年4月3日

Active Metric Learning for Supervised Classification

Arxiv

9+阅读 · 2018年3月28日

Activation Maximization Generative Adversarial Nets

Arxiv

5+阅读 · 2018年1月30日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员