基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享02(附pdf下载)

2017 年 12 月 1 日 专知 专知内容组(编)

点击上方“专知”关注获取专业AI知识!

【导读】上一次专知推出基于信息理论的机器学习报告,大家反响热烈,今天是胡老师提供的第二部分(为第三章内容)进行详细地注释说明,请大家查看!


概述



本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。由于时间有限,本次只是大概介绍一下本次tutorial的内容,后续会详细介绍每一部分。



胡老师的报告内容分为三个部分:

  • 引言(Introduction)

  • 信息理论基础(Basics of Information Theory)

  • 二值信道的理论进展(Theoretical Progress in Binary Channel

  • 分类评价中的信息度量(Information Measures in Classification Evaluation)

  • 贝叶斯分类器和互信息分类器(Bayesian Classifiers and Mutual-information Classifiers)

  • 总结和讨论(Summary and Discussions)





胡包钢研究员个人主页:

http://www.escience.cn/people/hubaogang/index.html


胡包钢老师简介:

胡包钢老师是机器学习与模式识别领域的知名学者,1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。 


▌PPT





第3章:二值信道的理论进展



分类是一种监督学习,因为每个样本的目标类标T通常给出。该图示意了分类与通信中模块的等价名称。


(目前的深度学习是“端到端”学习,即没有去人为地去建立特征变量。本章仅介绍二值分类。)



二值分类在通信理论中被称为二值信道。二值分类在分类求解中是最为基础的单元。当理论上的联合概率分布未知时,我们可以通过混淆矩阵转换为联合概率分布的估计。 



在传统信息论研究中仅考虑贝叶斯误差。该误差是分类理论中统计意义下的最小值(或误差下界)。多数分类器是以非贝叶斯方法出现,如深度学习,支持向量机,决策树等。因此非贝叶斯误差需要考虑。 



信息论中已有的上界与下界计算公式。它们适用于m类有限类别,并分别是通过不等式方式导出。这是信息论中最为重要的关系式。



该图示意了二值分类上界与下界曲线。反映了条件熵与误差之间的关联。由于贝叶斯分类是规定类别分布信息为已知,由此贝叶斯误差还有一个上界,为最小类别概率。任何超过该值的分类结果都不可能是贝叶斯分类(想想为什么)。


该图也示意了两种不同学习目标的驱动力。给定误差,下界为可能的最大条件熵产生的边界,上界为可能的最小条件熵产生的边界。



二值分类中条件熵计算公式。由于H(T)通常为固定值,该公式反映出最小条件熵等价于最大互信息。


该计算公式表达的独立自变量为两个(思考为什么?提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考)。



应用优化的方法我们从联合概率分布导出上下界计算公式,以及误差成分(e1与e2)的计算公式。


当误差与类别概率已知情况下,应用公式我们可以得出e1与e2。这一点是应用传统方法无法获得的信息(原因包括应用了不等式导出),但是这个信息对于机器学习可能是十分重要(误差类别会有不同影响)。



贝叶斯误差与条件熵的关联关系。下界与Fano完全相同,但是我们扩展了解释。


该界同时包括互信息为零(即条件熵最大,或T与Y变量独立)的解释与互信息不为零的解释。我们推导的上界为严格解,比原上界更紧。



非贝叶斯误差与条件熵的关联关系。我们首次将非贝叶斯误差引入该关联研究中。这也是从机器学习视角研究对信息理论发展的贡献。



这是首次推导的二值分类性能指标与互信息关联的关系式。该公式是以准确度,查全率,查准率为自变量表达。


实际中该关系表达的独立自变量为两个(思考下为什么?提示是从混淆矩阵的自由参数个数与混淆矩阵约束个数思考)。应用二个自变量表达其结果更为繁杂,采用这三个自变量表达更为简洁。


  • 第3章总结



误差与条件熵的界分析是建立信息类学习目标与传统经验类学习目标之间关系的最为基础内容。本章从优化的方式发展了信息论中的界分析理论。但是,有关结果受限于二值分类。如何推广到多值分类还是待解问题。二值分类的界分析对于理解两种学习目标十分重要。给定误差,可以对应多值条件熵结果。反之亦然。只有在贝叶斯误差分析中,一对一关系发生在零条件熵情况下。而在非贝叶斯误差分析中,零条件熵不一定对应零误差。在实际应用中非贝叶斯误差与条件熵的界更为重要。


第三部分的二值信道的理论进展结束了,敬请期待下一期内容。



特别提示-信息论报告下载


请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“ITL” 就可以获取胡老师报告的pdf下载链接~


-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域23个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请关注我们的公众号,获取人工智能的专业知识。扫一扫关注我们的微信公众号。

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流~


点击“阅读原文”,使用专知

登录查看更多
0

相关内容

中国科学院自动化研究所模式识别国家重点实验室研究员, 博士生导师。1983年在北京科技大学(原北京钢铁学院) 获工学硕士。1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大Memorial University of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院北京研究生院教授。2000-2005年任中法信息、自动化、应用数学联合实验室 (LIAMA)中方主任。 胡包钢博士曾担任过“IEEE系统-人-控制国际会议(IEEE International Conference on Systems, Man and Cybernetics)” 1995年及1998年的分会主席,2001年国际程序委员会委员, “1998年世界控制大会,第二届智能自动化和控制国际专题会议(WAC’98: The 2nd International Symposium on Intelligent Automation and Control)” 的国际程序委员会委员,2003年“植物生长建模、仿真、可视化及其应用国际专题会议”(PMA03)大会主席。他担任过专业刊物论文评审人的杂志有“IEEE Transactions on Systems, Man and Cybernetics”, “IEEE Transactions on Fuzzy Systems”, “Engineering Applications of Artificial Intelligence”, “自动化学报”, “控制理论与应用”等。 http://www.escience.cn/people/hubaogang/index.html
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
246 页《统计机器学习与凸优化》教程 PPT 下载
新智元
24+阅读 · 2018年9月21日
基于信息理论的机器学习
专知
21+阅读 · 2017年11月23日
Arxiv
35+阅读 · 2020年1月2日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
VIP会员
Top
微信扫码咨询专知VIP会员