当代机器学习系统在各种任务上都取得了巨大的成功,包括图像分类、目标检测和跟踪以及推荐算法。这一成功是由计算能力的巨大进步推动的,它使我们能够利用大型训练数据集,具有大量的类和具有大量参数的训练模型。事实上,这些系统使用的模型具有足够的模型容量,可以在有噪声甚至完全随机的标签上训练到误差。然而,这些模型在实践中往往具有很好的泛化性,避免了有害的“过拟合”。良好泛化的关键在于模型体系结构和训练算法的隐性偏差,它们引导我们找到良好泛化的解决方案。本文通过分析过度参数化的线性模型,证明良好泛化的充要条件,从理论上更好地理解这一现象。此外,我们还实证研究了在训练模型来解决控制领域的实际问题时,是否可以利用我们关于问题领域的知识来设计正确的内隐偏差。

我们从分析过参数化线性回归的简单设置开始,当特征的数量超过训练点的数量时,对有噪声的数据拟合一个线性模型。通过采取傅立叶理论的角度,我们映射了由过度参数化带来的关键挑战,众所周知,由于欠采样导致真实信号混叠的现象。借用信号处理中的“信号出血”和“信号污染”的概念,我们为傅里叶特征设置导出了良好的泛化条件。

接下来,我们分析最小-ℓ2-范数插值器在高斯特征设定下的回归和二元分类问题的泛化误差。对于回归,我们插值实值标签,对于二元分类,我们插值二元标签。(事实证明,在充分的过参数化条件下,二值标签的最小范数插值与其他二值分类训练方法等价,如支持向量机或逻辑损失梯度下降法。)我们研究了一个渐近设置,其中特征的数量d与训练点的数量n成比例,且都是n, d→∞。在特征的双水平尖峰协方差模型下,证明了存在一种中间状态,在这种状态下,我们在分类任务上表现良好,但在相应的回归任务上表现不佳。然后,我们将分析扩展到多类分类设置,其中类的数量也与训练点的数量成比例,通过导出由一热编码标签的最小范数插值器引起的分类误差的渐近界。最后,为了理解我们如何学习在实践中很好地推广的模型,我们经验地研究了神经网络的应用,在硬控制问题中,最优解是未知的,线性解被证明是次优的非线性控制策略。通过智能设计神经网络架构和训练方法,利用我们对控制系统动力学的知识,我们能够更容易和鲁棒地学习性能良好的控制策略。

成为VIP会员查看完整内容
49

相关内容

加州大学伯克利分校(University of California, Berkeley),是美国最负盛名且是最顶尖的一所公立研究型大学,位于旧金山东湾伯克利市的山丘上。创建于1868年,是加州大学十个分校中历史最悠久的一所。加州大学伯克利分校在世界范围内拥有崇高的学术声誉,拥有丰富的教学资源,研究水平非常坚厚,与斯坦福大学、麻省理工学院等一同被誉为美国工程科技界的学术领袖。
【硬核书】信号处理基础,677页pdf
专知会员服务
96+阅读 · 2022年9月6日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
50+阅读 · 2022年8月31日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
88+阅读 · 2022年4月5日
【新书稿】数据科学的谱方法:统计的视角,168页pdf
专知会员服务
54+阅读 · 2021年10月28日
【MIT博士论文】数据高效强化学习,176页pdf
Dropout视角下的MLM和MAE:一些新的启发
PaperWeekly
1+阅读 · 2021年12月6日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
【深度学习基础】1.监督学习和最优化
微信AI
0+阅读 · 2017年6月7日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年10月2日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
21+阅读 · 2022年2月24日
Arxiv
54+阅读 · 2021年5月3日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
53+阅读 · 2018年12月11日
VIP会员
相关VIP内容
【硬核书】信号处理基础,677页pdf
专知会员服务
96+阅读 · 2022年9月6日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
50+阅读 · 2022年8月31日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
88+阅读 · 2022年4月5日
【新书稿】数据科学的谱方法:统计的视角,168页pdf
专知会员服务
54+阅读 · 2021年10月28日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年10月2日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
21+阅读 · 2022年2月24日
Arxiv
54+阅读 · 2021年5月3日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
53+阅读 · 2018年12月11日
微信扫码咨询专知VIP会员