【导读】如何进一步理解贝叶斯分类器以及与互信息分类器的区别是机器学习中的重要基础知识。涉及到的基础问题一是处理不平衡数据背后的数学原理是什么。二是如何验证贝叶斯大脑猜想。本章给出了初步研究进展。

美籍华人学者周紹康(Chow,C.K.)1957年开创式将贝叶斯方法引入模式识别研究中,其它重要学术贡献还有:融合拒识智能决策于分类问题中与共同提出“周-刘”树的方法。这些都是创造知识的经典范例。本人正是受益于他1970年研究工作并扩展为不同拒识阈值(T_r1≠T_r2)情况下导出新的理论公式,更具一般性和图解释性(第13,14,16页)。目前教科书中通常是以单交叉点图(第14页中图)示意二值分类。其中三个定理扩充了机器学习与信息理论方面的基础知识。第一定理给出了不平衡数据下贝叶斯分类器将失效的证明。第二定理给出了代价矩阵中独立参数个数。这是参数可辨识性(即关于模型参数能否被惟一确定性质)研究内容。定理证明中应用了复合函数中独立参数个数上界是其中最小尺寸参数集的维数,可以理解为木桶原理中的短板决定木桶容量。该方式证明有利于延伸到对多类分类代价矩阵中独立参数个数的理解。第三定理给出了第二章中第3作业的解答。应用修正互信息定义不仅可以简单地解决问题,在非拒识情况下与原始互信息定义等价。它是否会引入其它问题还值得读者思考。

如果将贝叶斯分类与互信息分类视为两种不同数学原理,如第5章中第13页,代表了两种不同驱动力机制(力学方式思考)。要理解第44页中给出的例题为回答上面两个基础问题很有意义。处理不平衡数据要求小类样本被多数正确识别(第1章中第38页)。例题数值结果表明贝叶斯分类器是失效的。这样一个反例即可以推翻贝叶斯为大脑统一理论的猜想。例题的重要发现是熵原理支撑了“物以稀为贵”这样的分类决策(第54-55页)。另一方面我们要理解证实某数学原理为统一理论则必须要穷举。这通常是无法做到的。本人建议应用“猜想(conjecture)”的说法(如第1章第33页)。这部分仍然需要读者质疑”。对于大数据下的不平衡数据学习,对应代价敏感学习我们首次提出了代价缺失学习(即没有代价方面信息)。虽然已经有其它的代价缺失学习方法(如AUC, 几何平均等),但是只有互信息分类器能够处理拒识学习(第57页)。建议要思考这个“独门绝技”方法的内涵。信息论不仅能够深化解释性,而且还为发展新的工具提供原理性的方法。

第30,43页: 解释为什么在拒识分类中应用代价矩阵会有解释不一致性问题。这里以二值分类为例,会存在两组参数是代表了同一个分类器。而第一组对应了误差代价固定且相同,只是拒识代价不同。第二组对应了拒识代价固定且相同,只是误差代价不同。这种现象被称为解释不一致性。由此会在应用中产生混乱的解释结果。而应用拒识阈值可以获得唯一解释性。

第32页: 希望同学们明白知识创新并非只是“高大上”的产物,只要是有心人,是可以预期获得的。由张晓晚博士发展的的拒识分类ROC曲线(第32页中右图)就是这样的实例。这是可以进入机器学习教科书中崭新基础知识。已有研究是应用三维方式描述拒识情况。而二维ROC曲线不仅常规应用,而且解释性更直接与简单(相关点给出的斜率计算公式解释与独立参数个数的解释)。要理解对于同一个ROC曲线,左右图是有关联的。左图只是右图中拒识率为零的特殊情况。另一方面,左图ROC曲线中黑点位置应该位于右图ROC两个黑点之间的曲线中(满足第13页中不等式关系)。为避免数据构成的ROC经验曲线导出代价矩阵中有负值情况,应用中采用ROC凸包曲线(ROCCH,第49页)常规方法。

第45,52页: 应用互信息分类器可以根据数据分布获得拒识阈值方面的信息。考虑到拒识分类常规应用中人们习惯应用代价矩阵。我们提出了代价矩阵计算方法,并保证解释一致性。该方法提出了两步计算方式。第一步是应用互信息分类器对数据按照非拒识分类计算,计算结果可以唯一确定一个代价参数。第二步 是应用互信息分类器对数据按照拒识分类计算,获得拒识阈值具体值两个(T_r1与T_r2)。根据第13页中拒识阈值与代价参数之间的关系,以及其中四个代价参数已知(见第45页),可以唯一确定剩余两个固定代价参数。由此确保代价矩阵是唯一结果,实现了解释一致性。

作业:

  1. 在第32页左图中,当类别趋于极端不平衡情况时,贝叶斯分类器会位于ROC曲线中的什么位置?互信息分类器结果会怎样?

  2. 讨论题:第54页中是基于“物以稀為貴”语义的分类讨论,有否应用中会与此相反?这时应该建议什么样的学习目标?

  3. 思考题(第58页):拒识分类是人类决策中的重要智能方式之一。你会怎样找出优化方式的拒识阈值?人们一般是这样给出吗?

ITML7.pdf
62

相关内容

中国科学院自动化研究所模式识别国家重点实验室研究员, 博士生导师。1983年在北京科技大学(原北京钢铁学院) 获工学硕士。1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大Memorial University of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院北京研究生院教授。2000-2005年任中法信息、自动化、应用数学联合实验室 (LIAMA)中方主任。 胡包钢博士曾担任过“IEEE系统-人-控制国际会议(IEEE International Conference on Systems, Man and Cybernetics)” 1995年及1998年的分会主席,2001年国际程序委员会委员, “1998年世界控制大会,第二届智能自动化和控制国际专题会议(WAC’98: The 2nd International Symposium on Intelligent Automation and Control)” 的国际程序委员会委员,2003年“植物生长建模、仿真、可视化及其应用国际专题会议”(PMA03)大会主席。他担任过专业刊物论文评审人的杂志有“IEEE Transactions on Systems, Man and Cybernetics”, “IEEE Transactions on Fuzzy Systems”, “Engineering Applications of Artificial Intelligence”, “自动化学报”, “控制理论与应用”等。 http://www.escience.cn/people/hubaogang/index.html
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
139+阅读 · 2020年6月27日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
104+阅读 · 2020年5月26日
【机器学习课程】Google机器学习速成课程
专知会员服务
115+阅读 · 2019年12月2日
一文读懂机器学习中的贝叶斯统计学
数据分析
24+阅读 · 2019年5月8日
第二章 机器学习中的数学基础
Datartisan数据工匠
10+阅读 · 2018年4月5日
吴恩达机器学习课程
平均机器
8+阅读 · 2018年2月5日
送书 | 深入浅出,一起学习贝叶斯!
AI100
9+阅读 · 2018年2月2日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
How to Fine-Tune BERT for Text Classification?
Arxiv
12+阅读 · 2019年5月14日
Arxiv
11+阅读 · 2019年2月28日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
6+阅读 · 2018年10月3日
Implicit Maximum Likelihood Estimation
Arxiv
6+阅读 · 2018年9月24日
Physical Primitive Decomposition
Arxiv
3+阅读 · 2018年9月13日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关论文
How to Fine-Tune BERT for Text Classification?
Arxiv
12+阅读 · 2019年5月14日
Arxiv
11+阅读 · 2019年2月28日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
6+阅读 · 2018年10月3日
Implicit Maximum Likelihood Estimation
Arxiv
6+阅读 · 2018年9月24日
Physical Primitive Decomposition
Arxiv
3+阅读 · 2018年9月13日
Arxiv
5+阅读 · 2017年12月14日
微信扫码咨询专知VIP会员