【导读】这章主要是对连续变量熵等相关内容进行了介绍。其中美国物理学家Jaynes教授1957 年提出的最大熵原理是最为核心的理论贡献。该原理特别深刻,要知道它不仅是应用在统计推断方面,在很多领域中都可以成为一种原理给出信息论层面上的解释。基于最大熵原理可以根据不同约束导出各种概率分布函数(第8页)。过去认为熵是基于概率分布为已知而得到的一种结果。而最大熵原理给我的理解熵犹似“源”,因为它可导出概率分布表达。反之则不然,因为计算与导出表达是不同的。本章中另一个重要知识是不等式的学习与理解。如同香港中文大学杨伟豪教授指出的那样(第39页):信息论不等式给出了不可能发生的界,因此这将犹如信息论中的定律。比如其中Fano不等式与Kovalevskij不等式建立了条件熵与误差之间的关系,对机器学习中应用信息论指标有着直接的指导意义,并提供理论解释性。

第8页: 该页介绍了最大互信息可以导出经验式定义的相关系数,而其中的约束是随机变量最高阶次统计量只有二阶。由此例子我学到的内涵有:一是信息论指标更是“源”指标(导出其它,而非相反)。二是熵函数优化加约束可以提供更大的理论解释空间。三是熵指标原理上包容高阶统计量。

第27页: 这页内容是关于二值分类问题中,条件熵与误差之间界关系的讨论。本人2015年文章中的图给出了Fano下界曲线与Kovalevskij上界曲线。由于该文是讨论贝叶斯分类器,因此两类中的类别分布信息p_1与p_2已知。比如T中100个样本,有20个苹果,有80个鸭梨为标签。则p_1=0.2,p_2=0.8。由贝叶斯误差是分类器中理论上最小值这个知识(见Duda《模式分类》中文版第36页),文章添加了另一个上界,在此是蓝色横线p_min=p_1=0.2表示的。此界说明对于给定类别分布的贝叶斯分类器,不可能出现误差大于0.2的情况。图中三角代表贝叶斯分类器计算结果,而圆圈代表互信息分类器计算结果。可以看到该结果已经超出Kovalevskij上界,这里就引出了我们后来发展的界研究工作。这将是第5章中的内容。

该图示意了贝叶斯误差最小学习目标与条件熵最小学习目标在作用力方面有着等价的内涵。都是趋向原点。但是分类问题中多数情况是无法到达原点。因此两者通常没有一对一的关系。即根据给定样本分布得到的最小贝叶斯误差,其对应的条件熵有多解,可以不是最小条件熵。反之亦然。由此要理解条件熵有误差的近似内涵,但本质上是两个随机变量独立性的指标(第22页)。

ITML.pdf
69

相关内容

信息论(英语:information theory)是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。 信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理、信源-信道隔离定理相互联系。
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
87+阅读 · 2019年11月25日
独家 | 带你认识机器学习的的本质(附资料)
数据派THU
22+阅读 · 2019年3月13日
从信息瓶颈理论一瞥机器学习的“大一统理论”
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
【机器学习理论】我所理解的 SVM(支持向量机)- 1
机器学习研究会
5+阅读 · 2018年3月16日
资源 | CMU统计机器学习2017春季课程:研究生水平
机器之心
14+阅读 · 2017年10月30日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
3+阅读 · 2018年10月11日
Arxiv
3+阅读 · 2018年1月10日
VIP会员
微信扫码咨询专知VIP会员