非线性优化已成为机器学习的主力工具。然而,我们对机器学习中优化理论的理解仍然有限。例如,经典的优化理论依赖于诸如损失函数的有界Lipschitz平滑性等假设,而这些假设在机器学习中很少满足。此外,现有理论也无法很好地解释为什么自适应方法在某些机器学习任务中(如训练Transformers)优于梯度下降法。在本论文中,为了弥合这一差距,我们提出了更贴近机器学习实际的广义平滑性条件,并研究了在这些条件下流行的经典和自适应方法的收敛性。我们的收敛性结果优于现有结果,同时为理解自适应性在机器学习应用中的作用提供了新的见解。 首先,受到一些最近的研究工作和深度神经网络训练中见解的启发,我们提出了一种广义的非均匀平滑性条件,其在几乎所有地方都通过梯度范数的函数来约束Hessian范数。我们开发了一种简单但强大的分析技术,该技术通过沿轨迹约束梯度,从而为凸优化和非凸优化问题得出了更强的结果。特别是,我们在这种广义平滑性条件下,得到了梯度下降(GD)、随机梯度下降(SGD)和Nesterov加速梯度方法(NAG)在凸或非凸设置中的经典收敛速率。 此外,这种新的分析技术还使我们能够为自适应矩估计方法(Adam)获得改进的收敛结果。尽管Adam在训练深度神经网络中非常流行且高效,但其理论性质尚未完全被理解,现有的收敛性证明需要非常强的假设(如全局有界的梯度)来证明其收敛至驻点。在本论文中,我们证明了Adam在更为现实的条件下可以证明收敛,特别是我们不需要之前研究中的强假设,并且也考虑了广义平滑性条件。 然而,上述结果无法解释为什么像Adam这样的自适应方法在训练Transformers等机器学习应用中显著优于SGD,因为我们为Adam获得的收敛速率并不比SGD更快。先前的研究经验性地观察到,自适应方法沿训练轨迹往往表现出比SGD更小的方向性平滑性。在本论文中,我们将这一观察形式化为一个更为严谨的理论解释。具体而言,我们提出了一种方向性平滑性条件,在此条件下,我们证明了无记忆的Adam和RMSProp在确定性设置中具有更快的收敛性。值得注意的是,我们的收敛速率比典型的梯度下降法更快,为理解自适应性在训练Transformers中的优势提供了新的见解。

成为VIP会员查看完整内容
22

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员