Deep neural networks (DNNs) have achieved state-of-the-art performance across a variety of traditional machine learning tasks, e.g., speech recognition, image classification, and segmentation. The ability of DNNs to efficiently approximate high-dimensional functions has also motivated their use in scientific applications, e.g., to solve partial differential equations (PDE) and to generate surrogate models. In this paper, we consider the supervised training of DNNs, which arises in many of the above applications. We focus on the central problem of optimizing the weights of the given DNN such that it accurately approximates the relation between observed input and target data. Devising effective solvers for this optimization problem is notoriously challenging due to the large number of weights, non-convexity, data-sparsity, and non-trivial choice of hyperparameters. To solve the optimization problem more efficiently, we propose the use of variable projection (VarPro), a method originally designed for separable nonlinear least-squares problems. Our main contribution is the Gauss-Newton VarPro method (GNvpro) that extends the reach of the VarPro idea to non-quadratic objective functions, most notably, cross-entropy loss functions arising in classification. These extensions make GNvpro applicable to all training problems that involve a DNN whose last layer is an affine mapping, which is common in many state-of-the-art architectures. In our four numerical experiments from surrogate modeling, segmentation, and classification GNvpro solves the optimization problem more efficiently than commonly-used stochastic gradient descent (SGD) schemes. Also, GNvpro finds solutions that generalize well, and in all but one example better than well-tuned SGD methods, to unseen data points.


翻译:深神经网络(DNNs)在各种传统机器学习任务(例如语音识别、图像分类和分割)中取得了最先进的业绩。 DNNs 高效接近高维功能的能力也促使它们在科学应用中使用,例如,解决部分差异方程式(PDE)和生成代位模型。在本文中,我们考虑对DNs的监督培训,这在很多上述应用中产生。我们侧重于优化给定的DNN的权重的中心问题,以便准确估计所观测到的投入和目标数据之间的关系。为这一优化问题设计有效的解决方案是臭名昭著的,因为其权重、非共性、数据分化和非重度功能都被用于科学应用。为了更有效地解决优化问题,我们建议使用变量预测(VarProProProcial),这是最初设计为分解非线性非线性规则的分解方法,我们的主要贡献是,在Oral-Veral 高级分类法中,使Oral-ral-ral-ral-al-lad-lad-lax the lax a lags far-dal-dal-dal-dal-sleval-dal maslation maisl) maisl-s disl dislations disl) mas disl disl disl disl disl disl disl disml disl disl disml disml disml disl disl disl disl disl disl dsl dsl dsl disl disl disl disldsl disldsldsdsdsdsdsdsl dsl dsl dsl dsl dsl dsldsl dsldsldsldsldsldsldslddaldaldaldaldddddddddddddddddddddddddddddddddddddddddddslddddddddddddddds

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
【DeepMind】强化学习教程,83页ppt
专知会员服务
153+阅读 · 2020年8月7日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
32+阅读 · 2020年4月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月10日
Avoiding Traps in Nonconvex Problems
Arxiv
0+阅读 · 2021年6月9日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员