【报告分享】胡包钢研究员：基于信息理论的机器学习（附报告PPT）

2017 年 12 月 6 日 中国科学院自动化研究所

【导读】深度学习近年来在各个领域取得了巨大的成功，然而深度神经网络的可解释性及其理论尚未解决。利用信息论来解释神经网络的文章也逐渐引起关注，比如《Deep Learning and the information Bottleneck Principle》《Opening the Black Box of Deep Neural Networks via Information》，深度学习先驱Geoffery Hinton也曾评价该文章”信息瓶颈极其有趣…或许是解开谜题的那把钥匙”。自动化所胡包钢研究员在国际神经信息处理会议ICONIP上做了《基于信息理论的机器学习》教学报告。报告认为，信息学习理论将会成为未来机器学习理论发展中更为重要的基础内容。报告介绍了信息学习理论与机器学习的区别与联系，以新的视角来描述机器学习问题，也就是”What to learn”, “How to learn”, “What to evaluate”, “How to evaluate”这个四个基本问题。报告认为，统计学与优化理论主要是解决“How to learn”的问题，而无法回答“what to learn”的科学问题。

报告内容分为以下部分：

引言（Introduction）
信息理论基础（Basics of Information Theory）
二值信道的理论进展（Theoretical Progress in Binary Channel）
分类评价中的信息度量（Information Measures in Classification Evaluation）
贝叶斯分类器和互信息分类器（Bayesian Classifiers and Mutual-information Classifiers）
总结和讨论（Summary and Discussions）
本篇主要分享“信息论基础”和“二值信道的理论进展

在机器学习中，经验学习准则一般基于经验函数，如误差、泛化误差、误差边界、风险、损失、准确率、召回率等；而信息学习理论准则通常是基于熵的函数，如信息熵、信息散度、交叉熵、互信息等。

那么，对于一个机器学习问题，我们应该选择哪种学习准则作为目标？我们是否可以将基于熵的函数作为理解机器学习机制的统一理论呢？信息学习准则与经验学习准则之间的关系，以及使用信息学习准则的优势与局限是什么呢？

我认为机器学习可分为四个基本的问题，“what to learn”, “how to learn”, “what to evaluate”, “what to adjust”。

“what to learn” 是指学习目标的选择，要学习什么以及选择什么度量方式, 它通常由目标函数，优化方法与约束条件组成；”what to evaluate” 是指度量函数；这两个问题在计算表达与可解释层面组成了机器学习的初级问题；在这个基础上，”how to learn”是次级问题，它表示在满足所有约束条件下达到学习目标的学习过程设计与实现；第三级问题是”what to adjust”, 体现了机器在实现智能动态进化或成长的功能。

在大部分的机器学习与模式识别研究中，关注更多的是”how to learn”与”what to evaluate”的问题，但是”what to learn”以及”how to adjust”的问题却很少被研究，而他们也是机器学习更加智能的关键，如果学习目标是错误的，即使再好的学习方法也无法达到目标；而不知道如何调整机器学习组件，也就无法提升机器智能的层次。

老子在《道德经》中写到，“道生一，一生二，二生三，三生万物”, 可见万事万物皆有其本源的道理，寻找这种统一思想从两千多年前就是人们探索事物本质的一种方式。在人工智能的发展过程中，人们也曾尝试提出统一的思想框架，如上图所示。本人认为，机器学习的本质是从数据中提取和学习有用信息的过程，而信息论为信息的处理提供了坚实的理论框架，基于信息论的机器学习理论将会在今后机器学习的发展中扮演重要的角色，或许会成为机器学习统一理论的基石。

信息论基础

在这一部分，首先介绍熵的概念，它是随机变量不确定度的度量。如下，香农熵的计算形式，二值熵函数。

但是，先有熵还是先有概率？这仍然需要我们去理解哪一个是源哪一个是流。例如最大熵PCA的例子。

这是在比较几种信息度量。

在上图中，监督学习中信息度量的图式理解，这个图很重要，T表示目标变量，H(T)是分类问题的基线；优化算法优化目标尽可能接近这个基线，但是直接优化交叉熵H(Y；T),KL散度，条件熵并不一定能达到目的。只有互信息作为一种相似性的度量，拥有对称的属性。

然后是介绍其他基于熵的度量方式以及不同散度的定义。

信息论源自于熵的概念，熵的数学定义形式会随着信息论的发展不断拓展；如果我们用类比的方式理解信息度量，比如，熵看作单一随机变量的偏差；互信息看作两个随机变量的协方差；归一化的互信息看作两个随机变量的相关系数；散度看作两个随机变量的一种距离度量。可以从中得到许多启发。

二值信道的理论进展

分类是一种监督学习，因为每个样本的目标类标T通常给出。该图示意了分类与通信中模块的等价名称。

（目前的深度学习是“端到端”学习，即没有去人为地去建立特征变量。本章仅介绍二值分类。）

二值分类在通信理论中被称为二值信道。二值分类在分类求解中是最为基础的单元。当理论上的联合概率分布未知时，我们可以通过混淆矩阵转换为联合概率分布的估计。

在传统信息论研究中仅考虑贝叶斯误差。该误差是分类理论中统计意义下的最小值（或误差下界）。多数分类器是以非贝叶斯方法出现，如深度学习，支持向量机，决策树等。因此非贝叶斯误差需要考虑。

信息论中已有的上界与下界计算公式。它们适用于m类有限类别，并分别是通过不等式方式导出。这是信息论中最为重要的关系式。

该图示意了二值分类上界与下界曲线。反映了条件熵与误差之间的关联。由于贝叶斯分类是规定类别分布信息为已知，由此贝叶斯误差还有一个上界，为最小类别概率。任何超过该值的分类结果都不可能是贝叶斯分类（想想为什么）。

该图也示意了两种不同学习目标的驱动力。给定误差，下界为可能的最大条件熵产生的边界，上界为可能的最小条件熵产生的边界。

二值分类中条件熵计算公式。由于H（T）通常为固定值，该公式反映出最小条件熵等价于最大互信息。

该计算公式表达的独立自变量为两个（思考为什么？提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考）。

应用优化的方法我们从联合概率分布导出上下界计算公式，以及误差成分（e1与e2）的计算公式。

当误差与类别概率已知情况下，应用公式我们可以得出e1与e2。这一点是应用传统方法无法获得的信息（原因包括应用了不等式导出），但是这个信息对于机器学习可能是十分重要（误差类别会有不同影响）。

贝叶斯误差与条件熵的关联关系。下界与Fano完全相同，但是我们扩展了解释。

该界同时包括互信息为零（即条件熵最大，或T与Y变量独立）的解释与互信息不为零的解释。我们推导的上界为严格解，比原上界更紧。

非贝叶斯误差与条件熵的关联关系。我们首次将非贝叶斯误差引入该关联研究中。这也是从机器学习视角研究对信息理论发展的贡献。

这是首次推导的二值分类性能指标与互信息关联的关系式。该公式是以准确度，查全率，查准率为自变量表达。

实际中该关系表达的独立自变量为两个（思考下为什么？提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考）。应用二个自变量表达其结果更为繁杂，采用这三个自变量表达更为简洁。

本章总结

误差与条件熵的界分析是建立信息类学习目标与传统经验类学习目标之间关系的最为基础内容。本章从优化的方式发展了信息论中的界分析理论。但是，有关结果受限于二值分类。如何推广到多值分类还是待解问题。二值分类的界分析对于理解两种学习目标十分重要。给定误差，可以对应多值条件熵结果。反之亦然。只有在贝叶斯误差分析中，一对一关系发生在零条件熵情况下。而在非贝叶斯误差分析中，零条件熵不一定对应零误差。在实际应用中非贝叶斯误差与条件熵的界更为重要。

参考文献：

New Theory Cracks Open the Black Box of Deep Learning:

https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/

胡包钢研究员个人主页：

http://www.escience.cn/people/hubaogang/index.html

胡包钢老师简介：

胡包钢老师是机器学习与模式识别领域的知名学者，1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。

▌PPT

Information Theoretic Learning in Pattern Classification