该论文题为Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond,从新的视角来构造逼近框架,设计了Initialization Auxiliary and Pessimistic Trajectory Truncated Gradient Method (IAPTT-GM),解决下层非凸问题。具体来说,针对下层非凸结构特点,设计梯度下降迭代模块,利用迭代初始点作为额外的控制元(Initialization Auxiliary),构造对下层最优解的逼近;另一方面,从理论分析与降低计算负担两个角度,在外层迭代中引入(Pessimistic Trajectory Truncation)机制,构造对上层目标的有效逼近。在基于元学习的小样本分类任务与超参数优化数据超清洗任务上,论文验证了当下层问题有非凸结构时,IAPTT-GM与现有流行算法相比,具有明显的优势。

https://www.zhuanzhi.ai/paper/67ba4c9895d646ab8376a36ebbd0e9db

成为VIP会员查看完整内容
12

相关内容

【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
19+阅读 · 2021年11月7日
专知会员服务
21+阅读 · 2021年9月28日
专知会员服务
20+阅读 · 2021年8月1日
专知会员服务
14+阅读 · 2021年7月21日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
19+阅读 · 2020年12月9日
神经网络的损失函数为什么是非凸的?
极市平台
12+阅读 · 2019年9月26日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
Arxiv
0+阅读 · 2021年12月3日
Arxiv
31+阅读 · 2021年3月29日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
19+阅读 · 2021年11月7日
专知会员服务
21+阅读 · 2021年9月28日
专知会员服务
20+阅读 · 2021年8月1日
专知会员服务
14+阅读 · 2021年7月21日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
19+阅读 · 2020年12月9日
相关资讯
神经网络的损失函数为什么是非凸的?
极市平台
12+阅读 · 2019年9月26日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
相关论文
Arxiv
0+阅读 · 2021年12月3日
Arxiv
31+阅读 · 2021年3月29日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
6+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2015年9月14日
微信扫码咨询专知VIP会员