尽管深度学习广受欢迎并且取得了成功,但我们对于神经网络何时、如何以及为何能够泛化到未见过的示例的理解仍然有限。由于学习可以被视为从数据中提取信息,我们正式研究神经网络在训练过程中捕获的信息。具体来说,我们首先从信息论的角度来看待在存在噪声标签的情况下的学习,并推导出一种限制权重中标签噪声信息的学习算法。然后,我们定义了一个概念,即单个样本对深度网络训练提供的唯一信息,这为我们理解神经网络在处理非典型、模糊或属于代表性不足的子群体的示例时的行为提供了一些启示。我们通过推导出非空泛化差距界限,将示例的信息量与泛化能力联系起来。最后,通过研究知识蒸馏,我们强调了数据和标签复杂性在泛化中的重要作用。总的来说,我们的发现有助于更深入地理解神经网络泛化的底层机制。

在过去的十年里,深度学习在广泛的应用领域取得了显著的成功,包括计算机视觉、自然语言处理、语音识别、机器人技术和生成建模。使用随机梯度下降变体训练的大型神经网络展示出卓越的泛化能力,尽管它们具有足够的容量来记忆其训练集[Zhang et al., 2017]。虽然我们在理解深度学习方面取得了一些进步,但对于神经网络何时、为何以及如何泛化的全面理解仍然难以捉摸。

成为VIP会员查看完整内容
39

相关内容

加州大学洛杉矶分校(University of California, Los Angeles,缩写UCLA)是位于美国加利福尼亚州洛杉矶的公立研究型大学,创办于1919年,是加利福尼亚大学系统中的第二所大学。UCLA校园面积1.7平方公里,里面共有超过174栋大楼。它坐落于洛杉矶西部,日落大道的南部,是洛杉矶地区最精华的地段,最安全及时尚的区域。
【普林斯顿博士论文】智能体和机制的学习算法,201页pdf
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
57+阅读 · 2022年9月3日
【MIT博士论文】控制神经语言生成,147页pdf
专知会员服务
21+阅读 · 2022年9月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员