The recent advancement of foundation models (FMs) has brought about a paradigm shift, revolutionizing various sectors worldwide. The popular optimizers used to train these models are stochastic gradient descent-based algorithms, which face inherent limitations, such as slow convergence and stringent assumptions for convergence. In particular, data heterogeneity arising from distributed settings poses significant challenges to their theoretical and numerical performance. This paper develops an algorithm, PISA (Preconditioned Inexact Stochastic Alternating Direction Method of Multipliers). Grounded in rigorous theoretical guarantees, the algorithm converges under the sole assumption of Lipschitz continuity of the gradient on a bounded region, thereby removing the need for other conditions commonly imposed by stochastic methods. This capability enables the proposed algorithm to tackle the challenge of data heterogeneity effectively. Moreover, the algorithmic architecture enables scalable parallel computing and supports various preconditions, such as second-order information, second moment, and orthogonalized momentum by Newton-Schulz iterations. Incorporating the latter two preconditions in PISA yields two computationally efficient variants: SISA and NSISA. Comprehensive experimental evaluations for training or fine-tuning diverse deep models, including vision models, large language models, reinforcement learning models, generative adversarial networks, and recurrent neural networks, demonstrate superior numerical performance of SISA and NSISA compared to various state-of-the-art optimizers.


翻译:基础模型的最新进展引发了一场范式转变,正在全球范围内革新各个领域。目前用于训练这些模型的流行优化器是基于随机梯度下降的算法,这些算法面临着固有的局限性,例如收敛速度慢以及收敛所需的严格假设。特别是,分布式设置中产生的数据异质性对其理论和数值性能构成了重大挑战。本文提出了一种算法——PISA(预条件化非精确随机交替方向乘子法)。该算法基于严格的理论保证,仅需梯度在有界区域上的Lipschitz连续性假设即可收敛,从而消除了随机方法通常施加的其他条件需求。这一能力使得所提算法能够有效应对数据异质性的挑战。此外,该算法的架构支持可扩展的并行计算,并能兼容多种预条件子,例如二阶信息、二阶矩以及通过Newton-Schulz迭代实现的正交化动量。在PISA中引入后两种预条件子,产生了两个计算高效的变体:SISA和NSISA。针对包括视觉模型、大语言模型、强化学习模型、生成对抗网络和循环神经网络在内的多种深度模型的训练或微调,所进行的全面实验评估表明,与各种最先进的优化器相比,SISA和NSISA展现出更优越的数值性能。

0
下载
关闭预览

相关内容

【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员