一文总览由信息论中“熵”引申出来的各种距离/差异度量

2022 年 11 月 18 日 PaperWeekly

©作者 | 张维鸿

单位 | 中科院深先院

研究方向 | 计算生物学、迁移学习




信息熵

物理中热力学定律告诉我们世界是朝着熵增的,i.e.,混乱的方向演化的。越混乱的场景熵越大,熵是与不确定性正相关的。信息论中,熵反映了信息中包含的信息量的多少,越不确定的事件(概率 越小)包含的信息量越大:。于是,有

1.1 熵Entropy


假设事件 共有 种可能,发生 的概率为 ,那么事件 的熵定义为:



聪明的读者不难发现,熵就是事件 的信息量的期望,以概率 对事件的所有可能性加权的和。


1.2 条件熵Conditional Entropy


对于两个事件 ,条件熵是已知一个事件(如 )时另一个事件(如 )剩余的信息量:



由条件概率和联合概率的关系 ,于是:


1.3 联合熵Joint Entropy


联合概率 对应的联合事件的熵:



当事件, 独立时,由 知:



1.4 互信息Mutual Information


事件 重合部分的信息量, 的 intersection,定义为:



关系辩解


四者的关系见上图,即:

  • 条件熵+互信息=熵(CE + MI = E)


  • 熵+条件熵=联合熵(CE1 + CE2 + MI = EI + CE2 = JE)





差异度量(KL+)


信息熵可以衡量已知一个事件后另一个事件中未知的信息量,未知的信息量越少则两个事件重合度越高,从而,信息熵可以拓展到度量两个分布的距离/差异。


2.1 交叉熵Cross Entropy


回顾1.1中,熵是事件 的信息量的期望,即对事件的所有可能性加权和。假设事件 有真实分布 预测分布


交叉熵的“交叉”体现在用真实分布概率 加权预测分布的信息量



2.2 KL散度Kullback-Leibler Divergence(相对熵Relative Entropy)


相对熵的关键在于“相对”,“相对”体现在真实分布与预测分布的概率之比 以真实分布概率加权,(前向)KL 散度定义为:



对上式进行变换,可知



也即:KL散度 = 交叉熵 - 熵


显然,KL 散度不满足对称性,也不满足三角不等式,所以KL散度并不是距离。


✔ 值得注意的是:

在实际应用场景中,真实分布是确定的,故 H(p) 是常数,所以 KL 散度与交叉熵仅相差一个常数,从而,在分类任务中,评估预测分布与真实分布的差异可以用交叉熵损失度量。这就是有监督多分类任务一般用交叉熵损失而不用 KL 散度作为目标函数优化的原因。


  • 相对熵的一些理解:


可知,当 预测分布 与真实分布 完全一致时 KL 散度为 0,预测越逼近真实分布则 KL 散度越小。

又由加权系数 可知 KL 散度着重在真实分布中概率大的地方让预测逼近, 极端情况下 处预测分布与真实分布的差异大小不予考虑。如图例,着重让预测 在两峰逼近 ,而忽略谷点:



  • KL 散度 与互信息 的关系:



时,也即 为联合分布且 为边缘分布的乘积时,


2.3 JS散度Jensen-Shannon Divergence


正由于 KL 散度的非对称性使之不能作为距离,JS 散度作为 KL 散度的一种变体,解决了非对称问题,定义为:





其它


Wasserstein距离


差异/距离度量除了上面介绍的与信息熵有关的 notions 外,目前很火的是 p-Wasserstein 距离(由最优传输 Optimal Transport 得来), p-Wasserstein 距离的显著优点在于它可以比较两个完全没有 intersection 的分布 ,这是 KL 散度等不具备的。p-Wasserstein 距离已经在 WGAN 等工作中被广泛使用。


⌈最优传输OT和p-Wasserstein距离的简介⌋见笔者文章:

https://zhuanlan.zhihu.com/p/551134022


⌈最优传输的Python应用实现⌋见笔者文章:

https://zhuanlan.zhihu.com/p/573158960



参考文献

[1] KL散度衡量的是两个概率分布的距离吗?

https://www.zhihu.com/question/345907033/answer/2200649796

[2] 工具人66号:进阶详解KL散度

https://zhuanlan.zhihu.com/p/372835186

[3] KevinCK:交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

https://zhuanlan.zhihu.com/p/74075915



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

登录查看更多
0

相关内容

专知会员服务
29+阅读 · 2021年5月6日
专知会员服务
105+阅读 · 2021年3月23日
一篇文章讲清楚交叉熵和KL散度
PaperWeekly
1+阅读 · 2022年11月11日
两概率分布交叉熵的最小值是多少?
PaperWeekly
0+阅读 · 2021年11月6日
GAN 为什么需要如此多的噪声?
AI科技评论
14+阅读 · 2020年3月17日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
线性回归:简单线性回归详解
专知
11+阅读 · 2018年3月10日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年1月20日
Arxiv
0+阅读 · 2023年1月20日
Arxiv
21+阅读 · 2022年2月24日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关资讯
一篇文章讲清楚交叉熵和KL散度
PaperWeekly
1+阅读 · 2022年11月11日
两概率分布交叉熵的最小值是多少?
PaperWeekly
0+阅读 · 2021年11月6日
GAN 为什么需要如此多的噪声?
AI科技评论
14+阅读 · 2020年3月17日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
线性回归:简单线性回归详解
专知
11+阅读 · 2018年3月10日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Arxiv
0+阅读 · 2023年1月20日
Arxiv
0+阅读 · 2023年1月20日
Arxiv
21+阅读 · 2022年2月24日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
19+阅读 · 2018年6月27日
Top
微信扫码咨询专知VIP会员