在这篇论文中,我们对深度学习理论进行了实证研究。我们将深度学习系统视为黑盒,有我们可以控制的输入(训练样本、架构、模型大小、优化器等)和我们可以观察的输出(神经网络函数、其测试误差、其参数等)。我们的目标是描述输入的选择如何影响输出。作为一个经验理论,我们的目标是定量地描述这种行为,如果不是严格地证明它。我们希望理论尽可能普适化,应用于广泛的深度学习设置,包括那些在实践中。

为此,我们提出了三个经验理论。(1) Deep Double Descent证明了深度学习的输入和输出之间的关系并不总是以自然的方式单调:存在一个可预测的“关键机制”,例如,对更多数据的训练实际上会损害性能,但模型在这个机制之外表现良好。(2) 深度Bootstrap框架表明,要理解输出网络的泛化,只要理解我们的输入选择的优化方面就足够了。(3) 分布泛化更深入地研究了输出网络,发现经过训练的模型实际上“泛化”的范围比我们通常预期的要广得多。我们引入了一种新的泛化捕捉这些行为。

我们的研究结果揭示了学习理论中已有的主题(特别是泛化、过度参数化、插值化),也揭示了需要新的框架来捕捉的新现象。在某些情况下,我们对深度学习的研究揭示了一些现象,即使是非深度学习方法也适用。因此,我们希望这篇论文的结果将最终编织成一个一般性的深度学习理论。

Preetum Nakkiran 个人主页:https://preetum.nakkiran.org/

成为VIP会员查看完整内容
42

相关内容

深度学习理论,55页ppt,Preetum Nakkiran (UCSD)
专知会员服务
32+阅读 · 2021年10月27日
《过参数化机器学习理论》综述论文
专知会员服务
45+阅读 · 2021年9月19日
专知会员服务
44+阅读 · 2021年8月5日
详解深度学习中的双下降现象
计算机视觉life
5+阅读 · 2019年12月19日
【优博微展2018】王宇琦 :科学风险议题的媒介话语与政府回应
清华大学研究生教育
3+阅读 · 2019年2月26日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
2018年深度学习优化算法最新综述
计算机视觉战队
9+阅读 · 2018年12月11日
从傅里叶分析角度解读深度学习的泛化能力
PaperWeekly
7+阅读 · 2018年8月24日
NLP选题:6大研究方向助你开启科研之路
论智
4+阅读 · 2018年3月6日
2017年深度学习优化算法最新综述
计算机视觉战队
6+阅读 · 2017年12月18日
Arxiv
23+阅读 · 2021年10月11日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
15+阅读 · 2019年9月30日
Arxiv
8+阅读 · 2019年3月21日
VIP会员
相关资讯
详解深度学习中的双下降现象
计算机视觉life
5+阅读 · 2019年12月19日
【优博微展2018】王宇琦 :科学风险议题的媒介话语与政府回应
清华大学研究生教育
3+阅读 · 2019年2月26日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
2018年深度学习优化算法最新综述
计算机视觉战队
9+阅读 · 2018年12月11日
从傅里叶分析角度解读深度学习的泛化能力
PaperWeekly
7+阅读 · 2018年8月24日
NLP选题:6大研究方向助你开启科研之路
论智
4+阅读 · 2018年3月6日
2017年深度学习优化算法最新综述
计算机视觉战队
6+阅读 · 2017年12月18日
相关论文
Arxiv
23+阅读 · 2021年10月11日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
15+阅读 · 2019年9月30日
Arxiv
8+阅读 · 2019年3月21日
微信扫码咨询专知VIP会员