为了从最能区分类的高维数据中学习内在的低维结构,我们提出了最大编码率降低原理(MCR2),这是一种信息理论度量,可以最大限度地提高整个数据集和每个类的编码率差。明确了它与交叉熵、信息瓶颈、信息增益、压缩学习和对比学习等现有框架的关系,为学习多样性和有判别性表示提供了理论保障。该编码率可以从简并类子空间分布的有限样本中精确地计算出来,并且可以统一地学习有监督、自监督和无监督三种情况下的本征表示。特别地,单独使用该原理学习的表示比使用交叉熵学习的表示在分类中标记错误时具有更强的鲁棒性,并且可以在自学习不变特征聚类混合数据方面产生最先进的结果。
https://www.zhuanzhi.ai/paper/fb91343d453aad8707064021f94bb9de