基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享02(附pdf下载)

点击上方“专知”关注获取专业AI知识!

【导读】上一次专知推出基于信息理论的机器学习报告,大家反响热烈,今天是胡老师提供的第二部分(为第三章内容)进行详细地注释说明,请大家查看!


概述



本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。由于时间有限,本次只是大概介绍一下本次tutorial的内容,后续会详细介绍每一部分。



胡老师的报告内容分为三个部分:

  • 引言(Introduction)

  • 信息理论基础(Basics of Information Theory)

  • 二值信道的理论进展(Theoretical Progress in Binary Channel

  • 分类评价中的信息度量(Information Measures in Classification Evaluation)

  • 贝叶斯分类器和互信息分类器(Bayesian Classifiers and Mutual-information Classifiers)

  • 总结和讨论(Summary and Discussions)





胡包钢研究员个人主页:

http://www.escience.cn/people/hubaogang/index.html


胡包钢老师简介:

胡包钢老师是机器学习与模式识别领域的知名学者,1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。 


▌PPT





第3章:二值信道的理论进展



分类是一种监督学习,因为每个样本的目标类标T通常给出。该图示意了分类与通信中模块的等价名称。


(目前的深度学习是“端到端”学习,即没有去人为地去建立特征变量。本章仅介绍二值分类。)



二值分类在通信理论中被称为二值信道。二值分类在分类求解中是最为基础的单元。当理论上的联合概率分布未知时,我们可以通过混淆矩阵转换为联合概率分布的估计。 



在传统信息论研究中仅考虑贝叶斯误差。该误差是分类理论中统计意义下的最小值(或误差下界)。多数分类器是以非贝叶斯方法出现,如深度学习,支持向量机,决策树等。因此非贝叶斯误差需要考虑。 



信息论中已有的上界与下界计算公式。它们适用于m类有限类别,并分别是通过不等式方式导出。这是信息论中最为重要的关系式。



该图示意了二值分类上界与下界曲线。反映了条件熵与误差之间的关联。由于贝叶斯分类是规定类别分布信息为已知,由此贝叶斯误差还有一个上界,为最小类别概率。任何超过该值的分类结果都不可能是贝叶斯分类(想想为什么)。


该图也示意了两种不同学习目标的驱动力。给定误差,下界为可能的最大条件熵产生的边界,上界为可能的最小条件熵产生的边界。



二值分类中条件熵计算公式。由于H(T)通常为固定值,该公式反映出最小条件熵等价于最大互信息。


该计算公式表达的独立自变量为两个(思考为什么?提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考)。



应用优化的方法我们从联合概率分布导出上下界计算公式,以及误差成分(e1与e2)的计算公式。


当误差与类别概率已知情况下,应用公式我们可以得出e1与e2。这一点是应用传统方法无法获得的信息(原因包括应用了不等式导出),但是这个信息对于机器学习可能是十分重要(误差类别会有不同影响)。



贝叶斯误差与条件熵的关联关系。下界与Fano完全相同,但是我们扩展了解释。


该界同时包括互信息为零(即条件熵最大,或T与Y变量独立)的解释与互信息不为零的解释。我们推导的上界为严格解,比原上界更紧。



非贝叶斯误差与条件熵的关联关系。我们首次将非贝叶斯误差引入该关联研究中。这也是从机器学习视角研究对信息理论发展的贡献。



这是首次推导的二值分类性能指标与互信息关联的关系式。该公式是以准确度,查全率,查准率为自变量表达。


实际中该关系表达的独立自变量为两个(思考下为什么?提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考)。应用二个自变量表达其结果更为繁杂,采用这三个自变量表达更为简洁。


  • 第3章总结



误差与条件熵的界分析是建立信息类学习目标与传统经验类学习目标之间关系的最为基础内容。本章从优化的方式发展了信息论中的界分析理论。但是,有关结果受限于二值分类。如何推广到多值分类还是待解问题。二值分类的界分析对于理解两种学习目标十分重要。给定误差,可以对应多值条件熵结果。反之亦然。只有在贝叶斯误差分析中,一对一关系发生在零条件熵情况下。而在非贝叶斯误差分析中,零条件熵不一定对应零误差。在实际应用中非贝叶斯误差与条件熵的界更为重要。


第三部分的二值信道的理论进展结束了,敬请期待下一期内容。



特别提示-信息论报告下载


请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“ITL” 就可以获取胡老师报告的pdf下载链接~


-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域23个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请关注我们的公众号,获取人工智能的专业知识。扫一扫关注我们的微信公众号。

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流~


点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员