一文总览由信息论中“熵”引申出来的各种距离/差异度量

会员服务 ·

一文总览由信息论中“熵”引申出来的各种距离/差异度量

2022 年 11 月 18 日 PaperWeekly

©作者 | 张维鸿

单位 | 中科院深先院

研究方向 | 计算生物学、迁移学习

信息熵

物理中热力学定律告诉我们世界是朝着熵增的，i.e.，混乱的方向演化的。越混乱的场景熵越大，熵是与不确定性正相关的。信息论中，熵反映了信息中包含的信息量的多少，越不确定的事件（概率越小）包含的信息量越大：

。于是，有

1.1 熵Entropy

假设事件共有种可能，发生的概率为，那么事件的熵定义为：

聪明的读者不难发现，熵就是事件的信息量的期望，以概率对事件的所有可能性加权的和。

1.2 条件熵Conditional Entropy

对于两个事件，条件熵是已知一个事件（如）时另一个事件（如）剩余的信息量：

由条件概率和联合概率的关系

，于是：

1.3 联合熵Joint Entropy

联合概率对应的联合事件的熵：

当事件，独立时，由知：

1.4 互信息Mutual Information

事件重合部分的信息量，的 intersection，定义为：

关系辩解

四者的关系见上图，即：

条件熵+互信息=熵（CE + MI = E）

熵+条件熵=联合熵（CE1 + CE2 + MI = EI + CE2 = JE）

差异度量（KL+）

信息熵可以衡量已知一个事件后另一个事件中未知的信息量，未知的信息量越少则两个事件重合度越高，从而，信息熵可以拓展到度量两个分布的距离/差异。

2.1 交叉熵Cross Entropy

回顾1.1中，熵是事件的信息量的期望，即对事件的所有可能性加权和。假设事件有真实分布预测分布，

交叉熵的“交叉”体现在用真实分布概率加权预测分布的信息量：

2.2 KL散度Kullback-Leibler Divergence（相对熵Relative Entropy）

相对熵的关键在于“相对”，“相对”体现在真实分布与预测分布的概率之比，以真实分布概率加权，（前向）KL 散度定义为：

对上式进行变换，可知

也即：KL散度 = 交叉熵 - 熵

显然，KL 散度不满足对称性，也不满足三角不等式，所以KL散度并不是距离。

✔ 值得注意的是：

在实际应用场景中，真实分布是确定的，故 H(p) 是常数，所以 KL 散度与交叉熵仅相差一个常数，从而，在分类任务中，评估预测分布与真实分布的差异可以用交叉熵损失度量。这就是有监督多分类任务一般用交叉熵损失而不用 KL 散度作为目标函数优化的原因。

相对熵的一些理解：

由可知，当 预测分布 与真实分布 完全一致时 KL 散度为 0，预测越逼近真实分布则 KL 散度越小。

又由加权系数 可知 KL 散度着重在真实分布中概率大的地方让预测逼近， 极端情况下处预测分布与真实分布的差异大小不予考虑。如图例，着重让预测在两峰逼近，而忽略谷点：

KL 散度 与互信息 的关系：

当时，也即为联合分布且为边缘分布的乘积时，

2.3 JS散度Jensen-Shannon Divergence

正由于 KL 散度的非对称性使之不能作为距离，JS 散度作为 KL 散度的一种变体，解决了非对称问题，定义为：

其它

Wasserstein距离

差异/距离度量除了上面介绍的与信息熵有关的 notions 外，目前很火的是 p-Wasserstein 距离（由最优传输 Optimal Transport 得来）， p-Wasserstein 距离的显著优点在于它可以比较两个完全没有 intersection 的分布，这是 KL 散度等不具备的。p-Wasserstein 距离已经在 WGAN 等工作中被广泛使用。

⌈最优传输OT和p-Wasserstein距离的简介⌋见笔者文章：

https://zhuanlan.zhihu.com/p/551134022

⌈最优传输的Python应用实现⌋见笔者文章：

https://zhuanlan.zhihu.com/p/573158960

参考文献

[1] KL散度衡量的是两个概率分布的距离吗？

https://www.zhihu.com/question/345907033/answer/2200649796

[2] 工具人66号：进阶详解KL散度

https://zhuanlan.zhihu.com/p/372835186

[3] KevinCK：交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离（推土机距离）

https://zhuanlan.zhihu.com/p/74075915

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

散度

关注 0

《时间连通性作为非正交多址无线网络鲁棒性的度量》美海军2022最新151页博士论文

专知会员服务

16+阅读 · 2022年12月27日

如何理解信息论？伯克利最新《信息论》图文导论，43页pdf概述信息论中的熵、不确定、熵、互信息、编解码等基础概念

专知会员服务

173+阅读 · 2022年7月17日

【CVPR2021】面向通用领域自适应的领域共识聚类

专知会员服务

30+阅读 · 2021年5月6日

【斯坦福经典书】熵与信息论，311页pdf

专知会员服务

116+阅读 · 2021年3月23日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知会员服务

53+阅读 · 2020年3月9日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

70+阅读 · 2020年3月2日

【互信息与自监督学习，32页ppt】'Notes and tutorials on "Mutual information and self-supervised learning‘“

专知会员服务

26+阅读 · 2019年12月25日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

一篇文章讲清楚交叉熵和KL散度

PaperWeekly

1+阅读 · 2022年11月11日

两概率分布交叉熵的最小值是多少？

PaperWeekly

0+阅读 · 2021年11月6日

GAN 为什么需要如此多的噪声？

AI科技评论

14+阅读 · 2020年3月17日

机器学习计算距离和相似度的方法

极市平台

10+阅读 · 2019年9月20日

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

线性回归：简单线性回归详解

专知

12+阅读 · 2018年3月10日

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

高维多体量子态量子关联的度量及其在量子随机行走中变化的研究

国家自然科学基金

0+阅读 · 2015年12月31日

度量丢番图逼近与分形中的相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于信息几何和测度学习的混合高斯模型距离研究及在图像分类中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

两样本稀疏不平衡观测的纵向数据中的检验问题

国家自然科学基金

1+阅读 · 2013年12月31日

扩频通信多天线干扰检测技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

多目标(半)无限DC规划问题最优条件和对偶理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

对一般博弈均衡存在性的完整考察——基于递归转移连续性考察的新方法

国家自然科学基金

1+阅读 · 2012年12月31日

量子关联的度量及其与量子纠缠的比较

国家自然科学基金

0+阅读 · 2011年12月31日

通讯约束下随机自适应控制的信息论方法

国家自然科学基金

0+阅读 · 2011年12月31日

Local Feature Extraction from Salient Regions by Feature Map Transformation

Arxiv

0+阅读 · 2023年1月25日

Weisfeiler--Leman and Graph Spectra

Arxiv

0+阅读 · 2023年1月20日

Learning from non-irreducible Markov chains

Arxiv

0+阅读 · 2023年1月20日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

A Survey on Knowledge Graphs: Representation, Acquisition and Applications

Arxiv

32+阅读 · 2021年1月17日

Directional Graph Networks

Arxiv

27+阅读 · 2020年12月10日

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

A Comprehensive Survey on Graph Neural Networks

Arxiv

21+阅读 · 2019年1月3日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

VIP会员