Variational autoencoders (VAEs) optimize an objective that comprises a reconstruction loss (the distortion) and a KL term (the rate). The rate is an upper bound on the mutual information, which is often interpreted as a regularizer that controls the degree of compression. We here examine whether inclusion of the rate term also improves generalization. We perform rate-distortion analyses in which we control the strength of the rate term, the network capacity, and the difficulty of the generalization problem. Lowering the strength of the rate term paradoxically improves generalization in most settings, and reducing the mutual information typically leads to underfitting. Moreover, we show that generalization performance continues to improve even after the mutual information saturates, indicating that the gap on the bound (i.e. the KL divergence relative to the inference marginal) affects generalization. This suggests that the standard spherical Gaussian prior is not an inductive bias that typically improves generalization, prompting further work to understand what choices of priors improve generalization in VAEs.


翻译:变化式自动编码器( VAEs) 优化一个包含重建损失( 扭曲) 和 KL 术语( 速率) 的目标。 利率是相互信息的上限, 通常被解释为控制压缩程度的常规化器 。 我们在这里检查是否包含率术语也提高了一般化程度 。 我们进行率扭曲分析, 以控制利率术语的强度、 网络容量 和普遍化问题的难度 。 降低利率术语的强度, 矛盾的是, 在多数情况下, 改进了通用化, 减少相互信息通常导致不匹配 。 此外, 我们显示, 即使在相互信息饱和度之后, 普遍化的性能仍然在改善, 这表明约束上的差别( 即 KL 相对于推论边缘的差别) 影响一般化 。 这意味着, 标准球面盖不是典型的暗示性偏差性偏差, 改善一般化, 促使人们进一步了解先前的选择如何改进VAE 。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
【DeepMind】强化学习教程,83页ppt
专知会员服务
151+阅读 · 2020年8月7日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
7+阅读 · 2020年10月9日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年4月10日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
【DeepMind】强化学习教程,83页ppt
专知会员服务
151+阅读 · 2020年8月7日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
18+阅读 · 2021年3月16日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
7+阅读 · 2020年10月9日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年4月10日
Top
微信扫码咨询专知VIP会员