【导读】在信息论或机器学习教学中,通常不包含熵估计内容。由于现代通讯应用中是数字通讯,对于离散随机变量,熵估计方法成熟,因此不是问题。而在机器学习或大数据处理中,大量数据是以连续随机变量方式出现(如图像、语音等)。而对连续随机变量及其混合随机变量,目前熵估计仍然处于方法研究发展阶段。机器学习传统教学中会包括分布估计,而不包括熵估计内容。我们知道熵估计类似于随机变量分布估计,需求大量且在低维数据中方可获得较好的近似解。熵估计或分布估计均属于“生成式(discriminative)学习”,会比“判别式(generative)学习”更难于处理,且预测结果误差更大。熵估计可以被认为是信息论与机器学习“综合”中的最大障碍。而这些障碍有些是本质性的,比如高维数据情况下的维数灾难(Curse of Dimensionality)问题。当估计结果很差时,基于信息论机器学习方法将不可能有效。比如对同样一组数据,应用不同估计方法或不同内部参数会有很大不同结果。因此可以认为基于信息论机器学习中,熵与其它信息量估计是关键性的基础问题。因此本教学中,增加该章为独立内容。我们认为对抗网络(GAN)中的“生成式”方法结合“判别式”方法是赋予智能机器进化功能中的重要学习方式,其中信息论会扮演重要角色(想想为什么)。该章是讲解熵与其它信息量估计这样基础问题与必要知识,由此也理解为什么近年来这个主题研究开始活跃起来。

第17-22页: 在第一章中我们介绍了美国佛罗里达大学Principe教授是国际上首次提出“信息论机器学习(ITL)”理论框架的学者。基于此框架他们团队发展了许多基础性的原创工作。这里主要是他们关于二次Renyi熵中的部分贡献。其中从物理视角提出信息势、信息势场、信息力的定义(第19页),并与二次Renyi熵建立关联的学术思想十分重要并具启迪性。本人理解这是对机器学习从信息论角度提供解释性的重要基础。其中给我的启迪是未来要打通机器学习、信息论、物理原理之间的关联。第22页中的要点也可以理解为熵估计方法中期望的性质。

第30-37页: 我认为MIC方法给出了信息论中互信息定义扩展应用与估计方法创新的典型样例。他们首先发现现有指标应用中的问题,然后提出基于信息论为基础思想的指标,再后对这个指标提出需求满足两个启发式属性。这是一种顶层的先验知识。我们将其称为“元准则”,即关于准则之上的准则。最后是发展了具体MIC方法并从数据实验中表明该方法是基本符合两个启发式属性。希望读者能够从从这个研究样例中“悟”出一种个人总结的方法论?

ITML4.pdf
52

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
普林斯顿大学经典书《在线凸优化导论》,178页pdf
专知会员服务
183+阅读 · 2020年2月3日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
不用数学讲清马尔可夫链蒙特卡洛方法?
算法与数学之美
16+阅读 · 2018年8月8日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
基于信息理论的机器学习
专知
21+阅读 · 2017年11月23日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习(13)之最大熵模型详解
机器学习算法与Python学习
7+阅读 · 2017年8月24日
Inferred successor maps for better transfer learning
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关资讯
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
不用数学讲清马尔可夫链蒙特卡洛方法?
算法与数学之美
16+阅读 · 2018年8月8日
贝叶斯机器学习前沿进展
架构文摘
13+阅读 · 2018年2月11日
基于信息理论的机器学习
专知
21+阅读 · 2017年11月23日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习(13)之最大熵模型详解
机器学习算法与Python学习
7+阅读 · 2017年8月24日
微信扫码咨询专知VIP会员