In real word applications, data generating process for training a machine learning model often differs from what the model encounters in the test stage. Understanding how and whether machine learning models generalize under such distributional shifts have been a theoretical challenge. Here, we study generalization in kernel regression when the training and test distributions are different using methods from statistical physics. Using the replica method, we derive an analytical formula for the out-of-distribution generalization error applicable to any kernel and real datasets. We identify an overlap matrix that quantifies the mismatch between distributions for a given kernel as a key determinant of generalization performance under distribution shift. Using our analytical expressions we elucidate various generalization phenomena including possible improvement in generalization when there is a mismatch. We develop procedures for optimizing training and test distributions for a given data budget to find best and worst case generalizations under the shift. We present applications of our theory to real and synthetic datasets and for many kernels. We compare results of our theory applied to Neural Tangent Kernel with simulations of wide networks and show agreement. We analyze linear regression in further depth.


翻译:在实际文字应用中,用于培训机器学习模型的数据生成过程往往不同于模型在测试阶段遇到的情况。了解在这种分布式转换中普遍采用的机器学习模型是如何以及是否是一个理论挑战。在这里,我们研究在培训和测试分布方法不同于统计物理时,内核回归的概括性。我们使用复制方法,为适用于任何内核和真实数据集的超出分布的概括性错误得出一个分析公式。我们确定一个重叠矩阵,将特定内核的分布不匹配量化,作为分布式转换中一般化表现的一个关键决定因素。我们利用我们的分析表达来阐明各种一般化现象,包括在出现不匹配时可能改进一般化现象。我们制定程序,优化培训和测试特定数据预算的分布性,以找到在变化中的最佳和最坏的概括性案例。我们介绍了我们理论在真实和合成数据集和许多内核中的应用情况。我们将我们应用到Neoral Tangent Kernel的理论结果与宽网络的模拟结果进行比较,并显示一致意见。我们更深入地分析了线性回归性。

0
下载
关闭预览

相关内容

专知会员服务
123+阅读 · 2020年9月8日
专知会员服务
158+阅读 · 2020年1月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
101+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年4月1日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Arxiv
38+阅读 · 2021年8月31日
Arxiv
23+阅读 · 2021年3月4日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年4月1日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Top
微信扫码咨询专知VIP会员