最近的对比表示学习方法依赖于估计一个上下文的多个视图之间的互信息。例如,我们可以通过应用数据增强获得给定图像的多个视图,或者我们可以将序列分割成包含序列中某个步骤的过去和未来的视图。MI的下界比较容易优化,但当评估大量的MI有强烈的低估偏见。我们提出将完整的MI估计问题分解为一个较小的估计问题。这个表达式包含一个无条件和条件MI项的和,每个测量总的MI的适度块,这有助于通过对比界近似。为了使和最大化,我们给出了条件MI的一个比较下界,它可以有效地逼近。我们将我们的一般方法称为互信息分解估计(DEMI)。我们证明了DEMI可以捕获比标准的非分解对比界在综合设置更大数量的MI,并在视觉域的对话生成学习更好的表示。
https://www.zhuanzhi.ai/paper/8843e06299bf34535700e85e6c684c37