We review the current literature concerned with information plane analyses of neural network classifiers. While the underlying information bottleneck theory and the claim that information-theoretic compression is causally linked to generalization are plausible, empirical evidence was found to be both supporting and conflicting. We review this evidence together with a detailed analysis of how the respective information quantities were estimated. Our survey suggests that compression visualized in information planes is not necessarily information-theoretic, but is rather often compatible with geometric compression of the latent representations. This insight gives the information plane a renewed justification. Aside from this, we shed light on the problem of estimating mutual information in deterministic neural networks and its consequences. Specifically, we argue that even in feed-forward neural networks the data processing inequality need not hold for estimates of mutual information. Similarly, while a fitting phase, in which the mutual information between the latent representation and the target increases, is necessary (but not sufficient) for good classification performance, depending on the specifics of mutual information estimation such a fitting phase need not be visible in the information plane.


翻译:我们审视了目前与神经网络分类师信息平面分析有关的文献。 基本的信息瓶颈理论和关于信息理论与一般化有因果关系的说法是有道理的,但经验证据却被认为既支持又相互矛盾。 我们审视了这一证据,并详细分析了如何估计信息数量。 我们的调查表明,信息平面中的压缩图像不一定是信息理论,但往往与潜在表达面的几何压缩相容。 这种洞察为信息平面提供了新的理由。 除此之外,我们揭示了在确定性神经网络及其后果中估计相互信息的问题。 具体地说,我们争论说,即使在进食型神经网络中,数据处理不平等也不需要维持对相互信息的估计。 同样,一个适当阶段,即潜在代表面与目标增加之间的相互信息对于良好的分类性能来说是必要的(但并不足够 ), 取决于相互信息估计的具体程度,这种适当阶段不需要在信息平面上看到。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Deep Neural Networks and PIDE discretizations
Arxiv
0+阅读 · 2021年8月5日
Arxiv
11+阅读 · 2021年3月25日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
4+阅读 · 2017年1月2日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Deep Neural Networks and PIDE discretizations
Arxiv
0+阅读 · 2021年8月5日
Arxiv
11+阅读 · 2021年3月25日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
4+阅读 · 2017年1月2日
Top
微信扫码咨询专知VIP会员