作者|潘子琦
单位|上交BCMI实验室
来源|机器之心
现有的有监督解耦方法,比如把中间表征解耦成种类相关的表征和种类无关的表征,大多基于交换生成的经验性框架,缺乏理论指导,无法保证种类相关表征中不包含种类无关的信息。在本文中,来自上海交通大学的研究者尝试建立信息瓶颈(Information Bottleneck, IB)和有监督解耦之间的联系,为有监督解耦提供理论指导。
信息瓶颈是一种从源数据中提取出与任务目标有关信息的方法,一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现。现有文献已经指出 IB Lagrangian 存在的一些问题,比如期望的压缩水平与控制权衡的 Lagrangian 乘子之间没有因果关联,因此对于 IB Lagrangian 来说需要多次尝试优化来实现期望目标。
研究者在文中具体分析了 IB Lagrangian 中存在的权衡问题,表明随着压缩程度增大,预测性能严格减小。为了克服这些问题,研究者一方面期望在不损害预测性能的前提下能够实现最大化压缩,简称为「最大化压缩」;另一方面期望无需多次尝试优化,即模型能够一致地实现最大化压缩。
为此,研究者首先考察了最大化压缩实现时对应的量化条件,之后对优化目标给出了最大化压缩一致性的性质定义,即只要优化目标满足该性质就能够一致地实现最大化压缩。在此基础上,研究者给出自己的方案设计。
与现有的 IB Lagrangian 不同,研究者从有监督解耦的角度来实现信息压缩,这是因为他们认为信息压缩与有监督解耦本质上是同一回事:在有监督解耦任务中,需要将源数据中与给定标签有关的信息和其它信息分开,如给定图像的类别标签,将图像信息解耦为类别有关的和类别无关的信息;而类似地,在信息压缩任务中,要将源数据中与给定标签无关的信息丢弃从而实现压缩,同样需要区分出与给定标签有关的信息和与给定标签无关的信息。
基于此,研究者将有监督解耦与信息压缩相联系,提出了基于解耦的信息瓶颈算法。研究者给出了一些结论,同时在多个数据集上验证了这些结论,并验证了所提方法在包括信息压缩等多个评估指标上的性能。本文已被 AAAI 2021 会议接收。
Disentangled Information Bottleneck
Ziqi Pan / Li Niu / Jianfu Zhang / Liqing Zhang
http://www.paperweekly.site/papers/4771
研究者分析了 IB Lagrangian 中存在的压缩项与预测项之间的权衡问题。形式如下:
具体来说,本文的结论表明 IB Lagrangian 最优解对应的预测性能是随着压缩程度的增大而严格下降的。
最大化压缩一致性、方法设计
为了实现一致的最大化压缩,研究者首先给出了最大化压缩对应的量化条件。首先考虑了 I(X;Y) = H(Y)的情形,应用互信息的基本性质及信息处理不等式,可以得到:
接着给出了关于优化目标的最大化压缩一致性的性质定义:
即任意优化目标,只要满足这一性质,就会一致地实现最大化压缩,即上述量化条件。在此基础上给出了本文方法的优化目标函数:
具体来说,研究者通过最大化 I(X;S;Y)来约束 (S;Y) 能够表示出 X 的全部信息,则可知 S 至少包含了 X 中与 Y 无关的信息;通过最大化 I(T;Y)来约束 T 能够无损地预测出 Y,则可知至少 T 包含了 X 中与 Y 有关的信息。在此基础上通过最小化 I(S;T)来约束 S 与 T 中的信息互不交叠,从而精确地约束 T 保留与 Y 有关的信息而 S 保留与 Y 无关的信息。可以证明,研究者的优化目标满足最大化压缩一致性,即:
对于方案的工程实现,现有的文献提供了直接可用的方法。对于最大化 T(T;Y)和 I(X;S;Y)来说,可以采用变分逼近;而对于最小化 I(S;T)来说,可以采用 Density-Ratio Trick 并以对抗方式进行训练。
研究者的方案与信息压缩和有监督解耦两个领域有关。对于信息压缩的有关方法,大多采用了优化 IB Lagrangian 的形式,因此根据上述结论,它们的压缩项和预测项权衡无法避免,从而在信息压缩的同时带来预测性能的损失;而与有监督解耦的有关方法相比,如前所述,本文方法能够确保 T 和 S 分别精确地保留与 Y 有关和无关的信息,而它们在信息量控制方面没有保证。
实验结果
本文的主要目标是克服 IB Lagrangian 中的权衡问题,因此首先验证所提方法在 IB 平面(横轴代表 I(X;T),纵轴代表 I(T;Y))上的表现行为。结果如下图所示:
通过上图可以看出,本文方法能够在压缩信息的同时避免对预测性能的影响,最大化压缩的量化条件得以较好地逼近;而在 IB Lagrangian 的优化中,预测性能会随着压缩程度加大而下降。除此之外,参照信息压缩方法相关文献中的其它评估指标,本文方法在泛化能力、鲁棒性以及离群样本检测方面也表现良好。
本文方法额外带来的收获是能够进行有监督地解耦。通过可视化结果,本文方法可以较好地展示出解耦效果。
总的来说,为了克服优化 IB Lagrangian 的信息压缩方法中存在的压缩项与预测项的权衡问题,研究者从有监督解耦的角度实现了信息压缩的方法,并提出了基于有监督解耦的信息瓶颈算法。研究者给出了一些结论并进行了实验验证,同时在最大化压缩、泛化能力、鲁棒性、离群样本检测、有监督解耦等方面对方法进行评估,得到了良好的实验效果。
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。