【导读】如何进一步理解贝叶斯分类器以及与互信息分类器的区别是机器学习中的重要基础知识。涉及到的基础问题一是处理不平衡数据背后的数学原理是什么。二是如何验证贝叶斯大脑猜想。本章给出了初步研究进展。
美籍华人学者周紹康(Chow,C.K.)1957年开创式将贝叶斯方法引入模式识别研究中,其它重要学术贡献还有:融合拒识智能决策于分类问题中与共同提出“周-刘”树的方法。这些都是创造知识的经典范例。本人正是受益于他1970年研究工作并扩展为不同拒识阈值(T_r1≠T_r2)情况下导出新的理论公式,更具一般性和图解释性(第13,14,16页)。目前教科书中通常是以单交叉点图(第14页中图)示意二值分类。其中三个定理扩充了机器学习与信息理论方面的基础知识。第一定理给出了不平衡数据下贝叶斯分类器将失效的证明。第二定理给出了代价矩阵中独立参数个数。这是参数可辨识性(即关于模型参数能否被惟一确定性质)研究内容。定理证明中应用了复合函数中独立参数个数上界是其中最小尺寸参数集的维数,可以理解为木桶原理中的短板决定木桶容量。该方式证明有利于延伸到对多类分类代价矩阵中独立参数个数的理解。第三定理给出了第二章中第3作业的解答。应用修正互信息定义不仅可以简单地解决问题,在非拒识情况下与原始互信息定义等价。它是否会引入其它问题还值得读者思考。
如果将贝叶斯分类与互信息分类视为两种不同数学原理,如第5章中第13页,代表了两种不同驱动力机制(力学方式思考)。要理解第44页中给出的例题为回答上面两个基础问题很有意义。处理不平衡数据要求小类样本被多数正确识别(第1章中第38页)。例题数值结果表明贝叶斯分类器是失效的。这样一个反例即可以推翻贝叶斯为大脑统一理论的猜想。例题的重要发现是熵原理支撑了“物以稀为贵”这样的分类决策(第54-55页)。另一方面我们要理解证实某数学原理为统一理论则必须要穷举。这通常是无法做到的。本人建议应用“猜想(conjecture)”的说法(如第1章第33页)。这部分仍然需要读者质疑”。对于大数据下的不平衡数据学习,对应代价敏感学习我们首次提出了代价缺失学习(即没有代价方面信息)。虽然已经有其它的代价缺失学习方法(如AUC, 几何平均等),但是只有互信息分类器能够处理拒识学习(第57页)。建议要思考这个“独门绝技”方法的内涵。信息论不仅能够深化解释性,而且还为发展新的工具提供原理性的方法。
第30,43页: 解释为什么在拒识分类中应用代价矩阵会有解释不一致性问题。这里以二值分类为例,会存在两组参数是代表了同一个分类器。而第一组对应了误差代价固定且相同,只是拒识代价不同。第二组对应了拒识代价固定且相同,只是误差代价不同。这种现象被称为解释不一致性。由此会在应用中产生混乱的解释结果。而应用拒识阈值可以获得唯一解释性。
第32页: 希望同学们明白知识创新并非只是“高大上”的产物,只要是有心人,是可以预期获得的。由张晓晚博士发展的的拒识分类ROC曲线(第32页中右图)就是这样的实例。这是可以进入机器学习教科书中崭新基础知识。已有研究是应用三维方式描述拒识情况。而二维ROC曲线不仅常规应用,而且解释性更直接与简单(相关点给出的斜率计算公式解释与独立参数个数的解释)。要理解对于同一个ROC曲线,左右图是有关联的。左图只是右图中拒识率为零的特殊情况。另一方面,左图ROC曲线中黑点位置应该位于右图ROC两个黑点之间的曲线中(满足第13页中不等式关系)。为避免数据构成的ROC经验曲线导出代价矩阵中有负值情况,应用中采用ROC凸包曲线(ROCCH,第49页)常规方法。
第45,52页: 应用互信息分类器可以根据数据分布获得拒识阈值方面的信息。考虑到拒识分类常规应用中人们习惯应用代价矩阵。我们提出了代价矩阵计算方法,并保证解释一致性。该方法提出了两步计算方式。第一步是应用互信息分类器对数据按照非拒识分类计算,计算结果可以唯一确定一个代价参数。第二步 是应用互信息分类器对数据按照拒识分类计算,获得拒识阈值具体值两个(T_r1与T_r2)。根据第13页中拒识阈值与代价参数之间的关系,以及其中四个代价参数已知(见第45页),可以唯一确定剩余两个固定代价参数。由此确保代价矩阵是唯一结果,实现了解释一致性。
作业:
在第32页左图中,当类别趋于极端不平衡情况时,贝叶斯分类器会位于ROC曲线中的什么位置?互信息分类器结果会怎样?
讨论题:第54页中是基于“物以稀為貴”语义的分类讨论,有否应用中会与此相反?这时应该建议什么样的学习目标?
思考题(第58页):拒识分类是人类决策中的重要智能方式之一。你会怎样找出优化方式的拒识阈值?人们一般是这样给出吗?