随着大数据的普及和算力的提升,深度学习已成为一个热门研究领域,但其强大的性能过分依赖网络结构 和参数设置。 因此,如何在提高模型性能的同时降低模型的复杂度,关键在于模型优化。为了更加精简地描述优 化问题,本文以有监督深度学习作为切入点,对其提升拟合能力和泛化能力的优化方法进行归纳分析。给出优化的 基本公式并阐述其核心;其次,从拟合能力的角度将优化问题分解为3个优化方向,即收敛性、收敛速度和全局质量 问题,并总结分析这3个优化方向中的具体方法与研究成果;从提升模型泛化能力的角度出发,分为数据预处理和 模型参数限制两类对正则化方法的研究现状进行梳理;结合上述理论基础,以生成对抗网络(generative adversarial network,GAN)变体模型的发展历程为主线,回顾各种优化方法在该领域的应用,并基于实验结果对优化效果进行比 较和分析,进一步给出几种在GAN领域效果较好的优化策略。现阶段,各种优化方法已普遍应用于深度学习模型, 能够较好地提升模型的拟合能力,同时通过正则化缓解模型过拟合问题来提高模型的鲁棒性。尽管深度学习的优 化领域已得到广泛研究,但仍缺少成熟的系统性理论来指导优化方法的使用,且存在几个优化问题有待进一步研 究,包括无法保证全局梯度的Lipschitz限制、在GAN中找寻稳定的全局最优解,以及优化方法的可解释性缺乏严格 的理论证明。

随着智能技术的发展,深度学习备受青睐,广泛 应 用 于 计 算 机 视 觉(Agbo-Ajala 和 Viriri,2021; Abdolahnejad和Liu,2020)、图异常检测(陈波冯 等, 2021)、推荐系统的数据分析(Khan等,2021)和自然 语言处理(Torfi 等,2020)等领域。研究人员主要致 力于如何更好地提高深度学习模型的性能。Hinton 和 Salakhutdinov(2006)最早初步解决了“梯度消失” 问题。首先通过无监督的学习方法逐层训练模型, 每训练一层隐藏节点就作为下一层隐藏节点的输入(该过程称为预训练),再使用有监督的反向传播 (Rumelhart 等,1986)进行调优,以逐层预训练的方 式提取数据的高维特征,初步解决梯度消失的问题。 Glorot和 Bengio(2010)提出 Xavier初始化,使状态方 差和梯度方差保持不变,进而提升模型分类性能。 2011 年,ReLU(rectified linear unit)激活函数被证明 可以针对性控制梯度消失的情况(Glorot等,2011), 此时深度学习仍处于理论研究阶段。直至2012年, Hinton 团 队 在 ILSVRC(ImageNet large scale visual recognition challenge)大赛上通过结合 ReLU 激活函 数构建AlexNet(Krizhevsky等,2012),以碾压性的分 类性能夺冠,进一步推动深度学习成为研究热点。 此后,深度学习在其他领域也得以蓬勃发展。Gir⁃ shick(2015)提出 R-CNN(region convolutional neural network)将深度学习引入目标检测领域。

作为一种机器学习方法,深度学习可与其他机 器学习方法相结合,如图 1 所示。为了更加精简地 描述优化问题,仅以有监督深度学习的优化作为切 入点进行分析。监督学习的目标是通过得到的样本 找到一个近似底层函数的函数,主要由“表示”(repre⁃ sentation)、“优化”(optimization)和“泛化”(generaliza⁃ tion)3个步骤组成(Sun,2020)。“表示”即找到一个丰 富的函数族用以表示目标函数;“优化”即通过最小化 损失函数以确定函数参数;“泛化”指用得到的目标函 数进行预测,产生的误差称为测试误差,包括表示误 差、优化误差和泛化误差。一般默认已经找到适合 的目标函数再进行优化,因此不考虑表示误差。 神经网络本质上是一种对网络参数优化变量的 方法。因此,在确定适合的目标函数后,深度学习的 核心问题可归结为一个优化问题,其强大性能高度 依赖经验,研究人员需要经过训练大量模型才能得 到适合的参数。此外,在训练模型的过程中,现有的 理论无法严谨地分析所用方法的有效性。因此,深 度学习的优化问题可概括为:设计有效的优化方法 来提升模型的拟合能力,降低训练误差;同时,还要 考虑通过正则化方法提升模型的泛化能力,还能降 低模型的复杂度,更加高效地训练神经网络。 首先,介绍深度学习优化的理论基础,从拟合能 力的角度将深度学习优化问题划分为3个具体研究 方向,即收敛性、收敛速度和全局质量问题,并对每 个方向进行总结分析。其次,针对集成多种优化方 法可能存在过拟合进而降低模型泛化能力的问题,以提升模型泛化能力的正则化方法作为切入点,详 细阐述分析不同正则化方法的作用。接着,讨论上 述优化方法在生成对抗网络(generative adversarial network, GAN)中的使用。最后,在现有深度学习优 化理论的基础上,分析目前深度学习领域仍存在的 问题并分析未来研究方向。

成为VIP会员查看完整内容
37

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于深度学习的计算机视觉研究新进展
专知会员服务
149+阅读 · 2022年4月21日
基于深度学习的图像目标检测算法综述
专知会员服务
92+阅读 · 2022年4月15日
深度生成模型综述
专知会员服务
50+阅读 · 2022年1月2日
专知会员服务
89+阅读 · 2021年8月29日
专知会员服务
44+阅读 · 2021年8月28日
专知会员服务
115+阅读 · 2021年4月29日
专知会员服务
94+阅读 · 2020年12月8日
专知会员服务
173+阅读 · 2020年11月23日
深度学习目标检测方法综述
专知会员服务
259+阅读 · 2020年8月1日
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
基于深度学习的视频目标检测综述
极市平台
15+阅读 · 2019年7月19日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
36+阅读 · 2019年4月18日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
基于深度学习的肿瘤图像分割研究取得进展
中科院之声
17+阅读 · 2017年9月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月28日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
37+阅读 · 2021年2月10日
Arxiv
19+阅读 · 2021年1月14日
Arxiv
34+阅读 · 2020年1月2日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
基于深度学习的计算机视觉研究新进展
专知会员服务
149+阅读 · 2022年4月21日
基于深度学习的图像目标检测算法综述
专知会员服务
92+阅读 · 2022年4月15日
深度生成模型综述
专知会员服务
50+阅读 · 2022年1月2日
专知会员服务
89+阅读 · 2021年8月29日
专知会员服务
44+阅读 · 2021年8月28日
专知会员服务
115+阅读 · 2021年4月29日
专知会员服务
94+阅读 · 2020年12月8日
专知会员服务
173+阅读 · 2020年11月23日
深度学习目标检测方法综述
专知会员服务
259+阅读 · 2020年8月1日
相关资讯
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
基于深度学习的视频目标检测综述
极市平台
15+阅读 · 2019年7月19日
综述 | 近5年基于深度学习的目标检测算法
计算机视觉life
36+阅读 · 2019年4月18日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
基于深度学习的肿瘤图像分割研究取得进展
中科院之声
17+阅读 · 2017年9月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2023年6月28日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
37+阅读 · 2021年2月10日
Arxiv
19+阅读 · 2021年1月14日
Arxiv
34+阅读 · 2020年1月2日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
25+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员