深度神经网络,尤其是大语言模型(LLMs),在广泛的任务中展现了显著的成功;然而,其训练过程计算密集,需要大量的数据和计算资源。即使是对预训练的LLMs进行特定任务的微调,也常常带来显著的计算成本。本论文从凸优化的视角出发,推进了对神经网络的理论理解和实际优化。我们首先提出了一个基础性结果:两层ReLU网络的正则化训练问题可以重新表述为凸优化问题。这种凸优化公式化阐明了优化景观,刻画了所有全局最优解和Clarke稳定点,并将模型性能与超参数选择解耦。借鉴压缩感知中最稀疏线性模型的恢复,我们证明了过参数化神经网络本质上学习能够有效解释数据的简单模型,并通过在随机生成数据集中观察到的相变现象支持了这一结论,从而确立了其卓越的泛化能力。将强对偶性概念扩展到深层网络,我们提出了一种并行架构,能够在修改正则化的情况下实现全局最优训练,同时也为标准架构中非零对偶间隙的存在提供了见解。通过将正则化ReLU网络的训练与NP难问题Max-Cut联系起来,我们严格分析了训练到全局最优的计算复杂度,得出了NP难证明,并为特定类型的数据集开发了高效的多项式时间近似算法。即使在缺乏显式正则化的情况下,梯度流的隐式正则化也会驱动收敛到非凸最大间隔问题的全局最优解。我们通过利用随机几何代数对大语言模型(LLMs)进行微调,展示了凸优化的实际应用。我们进一步通过凸几何和对偶视角分析了用于训练两层ReLU网络的非凸次梯度流,表明其隐式偏差与凸正则化一致,并在对偶变量满足特定条件时证明了其收敛到全局最优解。最后,我们提出了一种半定规划(SDP)松弛方法,用于近似具有平方ReLU激活的两层网络中的Wasserstein梯度,确保在特定条件下的紧密松弛,并展示了其在贝叶斯推断和COVID-19参数估计中的有效性。这些发现填补了关键的理论空白,并引入了具有深远意义的创新方法,推动了我们对神经网络训练过程的理解。

成为VIP会员查看完整内容
17

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【阿姆斯特丹博士论文】带约束学习的优化算法
图神经网络火了?谈下它的普适性与局限性
机器之心
21+阅读 · 2019年7月29日
综述 | 语义分割经典网络及轻量化模型盘点
计算机视觉life
51+阅读 · 2019年7月23日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
448+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
165+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员