最近的对比表示学习方法依赖于估计潜在上下文的多个视图之间的互信息(MI)。例如,我们可以通过应用数据增强获得给定图像的多个视图,或者我们可以将序列分割成包含序列中某个步骤的过去和未来的视图。MI的对比下界很容易优化,在估计大量MI时具有很强的低估偏差。我们提出将整个MI估计问题分解为一组较小的估计问题,方法是将其中一个视图分解为越来越知情的子视图,并在分解的视图之间运用MI的链式法则。这个表达式包含无条件和有条件的MI项的和,每一项测量MI总量的适度块,便于通过对比边界进行近似。为了使和最大化,我们在条件MI上建立了一个可以有效逼近的对比下界。我们将我们的一般方法称为互信息分解估计(DEMI)。我们证明了DEMI可以在一个综合设置中捕获比标准的非分解的对比边界更多的MI,并且在视觉域中学习更好的表示和对话生成。
https://www.zhuanzhi.ai/paper/8843e06299bf34535700e85e6c684c37