【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks - 专知VIP

会员服务 ·

4

深度神经网络 · 梯度下降 · 正则化 · 优化 ·

2020 年 2 月 27 日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目： The Break-Even Point on Optimization Trajectories of Deep Neural Networks

摘要：

深度神经网络的早期训练对其最终性能至关重要。在这项工作中，我们研究了在训练初期使用的随机梯度下降(SGD)超参数如何影响优化轨迹的其余部分。我们认为在这条轨迹上存在“盈亏平衡点”，超过这个平衡点，损失曲面的曲率和梯度中的噪声将被SGD隐式地正则化。特别是在多个分类任务中，我们证明了在训练的初始阶段使用较大的学习率可以减少梯度的方差，改善梯度的协方差条件。从优化的角度来看，这些效果是有益的，并且在盈亏平衡点之后变得明显。补充之前的工作，我们还表明，使用低的学习率，即使对于具有批处理归一化层的神经网络，也会导致损失曲面的不良适应。简而言之，我们的工作表明，在训练的早期阶段，损失表面的关键属性受到SGD的强烈影响。我们认为，研究确定的效应对泛化的影响是一个有前途的未来研究方向。

成为VIP会员查看完整内容

34

相关内容

深度神经网络

深度神经网络

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

专知会员服务

151+阅读 · 2020年6月28日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

【泡泡点云时空】基于选择性传感器融合的神经网络视觉里程计

【泡泡点云时空】基于选择性传感器融合的神经网络视觉里程计

泡泡机器人SLAM

18+阅读 · 2019年4月21日

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

GAN生成式对抗网络

7+阅读 · 2019年2月15日

NIPS 2018 | 轨迹卷积网络 TrajectoryNet

NIPS 2018 | 轨迹卷积网络 TrajectoryNet

极市平台

8+阅读 · 2019年2月8日

自 Adam 出现以来，深度学习优化器发生了什么变化？

自 Adam 出现以来，深度学习优化器发生了什么变化？

机器之心

9+阅读 · 2018年12月9日

已删除

将门创投

10+阅读 · 2018年5月2日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

干货｜深度神经网络（DNN）反向传播算法(BP)

干货｜深度神经网络（DNN）反向传播算法(BP)

全球人工智能

7+阅读 · 2018年1月12日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

【教程】如何估算深度神经网络的最优学习率

【教程】如何估算深度神经网络的最优学习率

GAN生成式对抗网络

5+阅读 · 2017年11月18日

教程 | 如何估算深度神经网络的最优学习率

教程 | 如何估算深度神经网络的最优学习率

机器之心

3+阅读 · 2017年11月17日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

MAT-CNN-SOPC: Motionless Analysis of Traffic Using Convolutional Neural Networks on System-On-a-Programmable-Chip

MAT-CNN-SOPC: Motionless Analysis of Traffic Using Convolutional Neural Networks on System-On-a-Programmable-Chip

Arxiv

3+阅读 · 2018年7月5日

Improving Online Multiple Object tracking with Deep Metric Learning

Arxiv

7+阅读 · 2018年6月20日

Learning Dynamic Memory Networks for Object Tracking

Arxiv

9+阅读 · 2018年3月20日

Tracking Noisy Targets: A Review of Recent Object Tracking Approaches

Arxiv

9+阅读 · 2018年2月14日

Depth-Adaptive Computational Policies for Efficient Visual Tracking

Arxiv

8+阅读 · 2018年1月1日

VIP会员

相关主题

深度神经网络

相关VIP内容

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

专知会员服务

151+阅读 · 2020年6月28日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《多智能体不确定环境追逃博弈研究》216页

美智库最新发布《解放军"人机编组协同作战"发展路径：理论与实践》53页

现代战争"杀伤区"理论：空间尺度与结构特征、控制手段与毁伤机制、生存策略与战线转移

《俄军无人机创新技术或已在乌克兰达成"战场空中封锁"作战效果》最新18页报告

相关资讯

【泡泡点云时空】基于选择性传感器融合的神经网络视觉里程计

【泡泡点云时空】基于选择性传感器融合的神经网络视觉里程计

泡泡机器人SLAM

18+阅读 · 2019年4月21日

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

GAN生成式对抗网络

7+阅读 · 2019年2月15日

NIPS 2018 | 轨迹卷积网络 TrajectoryNet

NIPS 2018 | 轨迹卷积网络 TrajectoryNet

极市平台

8+阅读 · 2019年2月8日

自 Adam 出现以来，深度学习优化器发生了什么变化？

自 Adam 出现以来，深度学习优化器发生了什么变化？

机器之心

9+阅读 · 2018年12月9日

已删除

将门创投

10+阅读 · 2018年5月2日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

干货｜深度神经网络（DNN）反向传播算法(BP)

干货｜深度神经网络（DNN）反向传播算法(BP)

全球人工智能

7+阅读 · 2018年1月12日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

【教程】如何估算深度神经网络的最优学习率

【教程】如何估算深度神经网络的最优学习率

GAN生成式对抗网络

5+阅读 · 2017年11月18日

教程 | 如何估算深度神经网络的最优学习率

教程 | 如何估算深度神经网络的最优学习率

机器之心

3+阅读 · 2017年11月17日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

HyperGCN: A New Method of Training Graph Convolutional Networks on Hypergraphs

Arxiv

13+阅读 · 2019年5月22日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

MAT-CNN-SOPC: Motionless Analysis of Traffic Using Convolutional Neural Networks on System-On-a-Programmable-Chip

MAT-CNN-SOPC: Motionless Analysis of Traffic Using Convolutional Neural Networks on System-On-a-Programmable-Chip

Arxiv

3+阅读 · 2018年7月5日

Improving Online Multiple Object tracking with Deep Metric Learning

Arxiv

7+阅读 · 2018年6月20日

Learning Dynamic Memory Networks for Object Tracking

Arxiv

9+阅读 · 2018年3月20日

Tracking Noisy Targets: A Review of Recent Object Tracking Approaches

Arxiv

9+阅读 · 2018年2月14日

Depth-Adaptive Computational Policies for Efficient Visual Tracking

Arxiv

8+阅读 · 2018年1月1日

微信扫码咨询专知VIP会员