基于信息理论的机器学习

2017 年 11 月 23 日 专知胡包钢

点击上方“专知”关注获取专业AI知识!

【导读】今天，专知很荣幸邀请到中科院自动化研究所胡包钢研究员分享他最近在国际神经信息处理会议ICONIP上做的教学报告。在这篇报告中，作者相信信息学习理论将会成为未来机器学习理论发展中更为重要的基础内容。在今年Yann LeCun教授访问中国科学院自动化所之际，作者将自己的一篇观点文章分享与他作为学术交流。深度学习近年来在各个领域取得了巨大的成功，然而深度神经网络的可解释性及其理论一直是一个问题。利用信息论来解释神经网络的文章也逐渐引起关注，比如《Deep Learning and the information Bottleneck Principle》《Opening the Black Box of Deep Neural Networks via Information》，深度学习先驱Geoffery Hinton也曾评价该文章”信息瓶颈极其有趣…或许是解开谜题的那把钥匙”。在本次报告中，作者从自己的理解介绍了信息学习理论与机器学习的区别与联系，希望能够给读者带来启发。文章末尾附有胡老师的信息理论学习的教程报告pdf下载。

纵观过去十几年机器学习取得的成功，从理论视角来看，主要得益于统计学与优化理论的重要支撑，而其他理论视角却关注较少。在本讲座中，作者以新的视角来描述机器学习问题，也就是”What to learn”, “How to learn”, “What to evaluate”, “How to evaluate”这个四个基本问题。本讲座认为，统计学与优化理论主要是解决“How to learn”的问题，而无法回答“what to learn”的科学问题。

为了回答，作者对比了信息学习理论与机器学习的联系与差别，以分类学习为例，希望读者理解信息论目标或准则的重要发展趋势及其独特优点，如拒识分类中能够实现代价缺失学习。讲座中用图形方式解释了这些准则（如KL散度，交叉熵，互信息之间）之间的关联，以及局限性（如KL(T,Y)=0，不意味着两类样本的等同）。

▌概述

本次tutorial的目的是，1.介绍信息学习理论与模式识别的基本概念与原理；2.揭示最新的理论研究进展；3.从机器学习与人工智能的研究中启发思索。由于时间有限，本次只是大概介绍一下本次tutorial的内容，后续会详细介绍每一部分。

介绍

在机器学习中，经验学习准则一般基于经验函数，如误差、泛化误差、误差边界、风险、损失、准确率、召回率等；而信息学习理论准则通常是基于熵的函数，如信息熵、信息散度、交叉熵、互信息等。

那么，对于一个机器学习问题，我们应该选择哪种学习准则作为目标？我们是否可以将基于熵的函数作为理解机器学习机制的统一理论呢？信息学习准则与经验学习准则之间的关系，以及使用信息学习准则的优势与局限是什么呢？

我认为机器学习可分为四个基本的问题，“what to learn”, “how to learn”, “what to evaluate”, “what to adjust”。

“what to learn” 是指学习目标的选择，要学习什么以及选择什么度量方式, 它通常由目标函数，优化方法与约束条件组成；”what to evaluate” 是指度量函数；这两个问题在计算表达与可解释层面组成了机器学习的初级问题；在这个基础上，”how to learn”是次级问题，它表示在满足所有约束条件下达到学习目标的学习过程设计与实现；第三级问题是”what to adjust”, 体现了机器在实现智能动态进化或成长的功能。

在大部分的机器学习与模式识别研究中，关注更多的是”how to learn”与”what to evaluate”的问题，但是”what to learn”以及”how to adjust”的问题却很少被研究，而他们也是机器学习更加智能的关键，如果学习目标是错误的，即使再好的学习方法也无法达到目标；而不知道如何调整机器学习组件，也就无法提升机器智能的层次。

老子在《道德经》中写到，“道生一，一生二，二生三，三生万物”, 可见万事万物皆有其本源的道理，寻找这种统一思想从两千多年前就是人们探索事物本质的一种方式。在人工智能的发展过程中，人们也曾尝试提出统一的思想框架，如上图所示。本人认为，机器学习的本质是从数据中提取和学习有用信息的过程，而信息论为信息的处理提供了坚实的理论框架，基于信息论的机器学习理论将会在今后机器学习的发展中扮演重要的角色，或许会成为机器学习统一理论的基石。

信息论基础

在这一部分，首先介绍熵的概念，它是随机变量不确定度的度量。如下，香农熵的计算形式，二值熵函数。

但是，先有熵还是先有概率？这仍然需要我们去理解哪一个是源哪一个是流。例如最大熵PCA的例子。

这是在比较几种信息度量。

在上图中，监督学习中信息度量的图式理解，这个图很重要，T表示目标变量，H(T)是分类问题的基线；优化算法优化目标尽可能接近这个基线，但是直接优化交叉熵H(Y；T),KL散度，条件熵并不一定能达到目的。只有互信息作为一种相似性的度量，拥有对称的属性。

然后是介绍其他基于熵的度量方式以及不同散度的定义。

信息论源自于熵的概念，熵的数学定义形式会随着信息论的发展不断拓展；如果我们用类比的方式理解信息度量，比如，熵看作单一随机变量的偏差；互信息看作两个随机变量的协方差；归一化的互信息看作两个随机变量的相关系数；散度看作两个随机变量的一种距离度量。可以从中得到许多启发。

参考文献：

New Theory Cracks Open the Black Box of Deep Learning:

https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/

胡包钢研究员个人主页：

http://www.escience.cn/people/hubaogang/index.html

胡包钢老师简介：

胡包钢老师是机器学习与模式识别领域的知名学者，1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。

▌PPT

附上胡老师讲座的PPT内容，PPT内容非常翔实精彩，后续胡老师会在专知平台上会持续对PPT内容的各个部分进行解读，敬请期待！文末有最新PPT下载链接。

Information Theoretic Learning in Pattern Classification