简介: 为了解释超参数化深度网络令人惊讶的良好泛化行为,最近的工作开发了各种泛化边界学习方法,这些方法都是基于统一收敛的基础学习理论技术。尽管众所周知,存在多个边界的数值很大,但通过大量实验,我们发现了这些边界的更多相关方面:在实践中,这些边界会随着训练数据集的大小而增加。然后,以我们的观察为指导,我们提供了由梯度下降(GD)训练的过参数化线性分类器和神经网络的示例,其中即使证明了最大程度地考虑了GD的隐性偏差,也证明均匀收敛不能“解释泛化”。更准确地说,即使我们仅考虑GD输出的分类器集,其测试误差小于我们的设置中的一些误差,我们仍然表明,在这组分类器上应用(双面)均匀收敛只会产生虚无泛化保证大于1−ε。通过这些发现,我们对基于统一收敛的泛化边界的威力提出了疑问,以提供为什么超参数化的深层网络能够很好地泛化的完整情况。

本文提出了本质上是负面的结果,表明许多现有的(基于规范的)深度学习算法的性能边界无法达到他们要求的结果。作者进一步说,当其他研究者继续依靠双边一致收敛的机制时,他们将无法达到自己宣称的结果。虽然本文没有解决(也不假装解决)深层神经网络中的泛化问题,但是将该算法“钉死在十字架上”(培根原话“An Instance of the Fingerpost”),指出机器学习领域应该关注另一个不同的地方。

作者介绍: Vaishnavh Nagarajan,卡内基梅隆大学(CMU)计算机科学系五年级的博士生。他的兴趣在于机器学习和人工智能的算法和基础方面。目前,他正在研究如何在有监督和无监督的学习环境中从理论上理解深度学习中的泛化。在过去,他从事过更传统的学习理论、多智能体系统和强化学习。

Zico Kolter,卡内基梅隆大学计算机科学学院计算机科学系的副教授。 除了在CMU的全职工作之外,还任博世AI中心(BCAI)的AI研究首席科学家,工作重点是机器学习,优化和控制。 具体来说,就是使深度学习算法更安全,更可靠,更易于解释。个人主页:https://www.csd.cs.cmu.edu/people/faculty/zico-kolter

成为VIP会员查看完整内容
12

相关内容

美国卡耐基梅隆大学(Carnegie Mellon University),简称CMU,坐落在美国宾夕法尼亚州的匹兹堡(Pittsburgh),是一所拥有13,600名在校学生和1,423名教职及科研人员的世界著名学府。该校拥有享誉全球的计算机学院和戏剧学院,其艺术学院,商学院,工程院以及公共管理学院等也都在全美名列前茅。
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
【UAI 2019 Tutorials】深度学习数学(Mathematics of Deep Learning)
ICLR2019 图上的对抗攻击
图与推荐
17+阅读 · 2020年3月15日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
7+阅读 · 2018年5月23日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
【UAI 2019 Tutorials】深度学习数学(Mathematics of Deep Learning)
相关论文
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
7+阅读 · 2018年5月23日
Arxiv
5+阅读 · 2018年4月22日
微信扫码咨询专知VIP会员