Machine learning is predicated on the concept of generalization: a model achieving low error on a sufficiently large training set should also perform well on novel samples from the same distribution. We show that both data whitening and second order optimization can harm or entirely prevent generalization. In general, model training harnesses information contained in the sample-sample second moment matrix of a dataset. For a general class of models, namely models with a fully connected first layer, we prove that the information contained in this matrix is the only information which can be used to generalize. Models trained using whitened data, or with certain second order optimization schemes, have less access to this information, resulting in reduced or nonexistent generalization ability. We experimentally verify these predictions for several architectures, and further demonstrate that generalization continues to be harmed even when theoretical requirements are relaxed. However, we also show experimentally that regularized second order optimization can provide a practical tradeoff, where training is accelerated but less information is lost, and generalization can in some circumstances even improve.


翻译:计算机学习基于一般化概念:在一个足够大的培训数据集上达到低误差的模型,同样也应对同一分布的新型样本产生良好的效果。我们表明,数据白化和第二顺序优化都会损害或完全防止一般化。一般而言,模型培训利用数据集样本样本第二瞬间矩阵中的信息。对于一般的模型类别,即具有完全连接第一层的模型,我们证明,本矩阵中所含的信息是可用于概括化的唯一信息。使用白化数据或某些第二顺序优化计划培训的模型,获得这种信息的机会较少,导致一般化能力降低或不存在。我们实验性地核查若干结构的这些预测,并进一步证明即使在理论要求放松时,一般化仍然受到损害。但是,我们还实验性地表明,正规化的第二顺序优化可以提供实际的交换,在培训加快但信息减少的情况下,一般化在某些情况下甚至可以改进。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年7月10日
专知会员服务
113+阅读 · 2020年10月8日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
8+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年9月19日
Arxiv
0+阅读 · 2021年9月18日
Arxiv
13+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员