Zeroth-order optimization (ZO) algorithms have been recently used to solve black-box or simulation-based learning and control problems, where the gradient of the objective function cannot be easily computed but can be approximated using the objective function values. Many existing ZO algorithms adopt two-point feedback schemes due to their fast convergence rate compared to one-point feedback schemes. However, two-point schemes require two evaluations of the objective function at each iteration, which can be impractical in applications where the data are not all available a priori, e.g., in online optimization. In this paper, we propose a novel one-point feedback scheme that queries the function value once at each iteration and estimates the gradient using the residual between two consecutive points. When optimizing a deterministic Lipschitz function, we show that the query complexity of ZO with the proposed one-point residual feedback matches that of ZO with the existing two-point schemes. Moreover, the query complexity of the proposed algorithm can be improved when the objective function has Lipschitz gradient. Then, for stochastic bandit optimization problems where only noisy objective function values are given, we show that ZO with one-point residual feedback achieves the same convergence rate as that of two-point scheme with uncontrollable data samples. We demonstrate the effectiveness of the proposed one-point residual feedback via extensive numerical experiments.


翻译:最近利用零点命令优化算法来解决黑盒或模拟学习和控制问题,其中目标功能的梯度无法轻易计算,但可以用客观功能值来比较。许多现有的ZO算法采用两点反馈计划,因为与一点反馈计划相比,它们快速趋同率是两点反馈计划。然而,两点计划要求对每个迭代的客观功能进行两次评价,如果数据并非全部具有先验性,在应用程序中可能是不切实际的,例如在网上优化方面。在本文件中,我们提议一个新型的一点反馈计划,在每次迭代中查询一次功能值,并利用连续两个点之间的剩余值估算梯度。在优化确定性利普施茨函数时,我们表明,ZO与拟议的一点剩余反馈计划的质复杂性与现有的两点计划相匹配。此外,如果目标功能具有利普西茨梯度梯度,则拟议的残余值的查询复杂性可以提高。然后,在每次迭接强一点时,在每次迭接强点时,通过两个连续点目标值来测测测测测测测测测测,我们所给出了同一点的数值,从而显示,我们以同一点数点对一点的数值表示,我们展示了同一点的数值的精确点的数值。

0
下载
关闭预览

相关内容

我们给定x,函数都会输出一个f(X),这个输出的f(X)与真实值Y可能是相同的,也可能是不同的,为了表示拟合的好坏,就用一个函数来度量拟合的程度。这个函数就称为损失函数(loss function),或者叫代价函数(cost function)
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
39+阅读 · 2020年7月27日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
169+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
已删除
将门创投
6+阅读 · 2018年12月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Learning to Control using Image Feedback
Arxiv
0+阅读 · 2021年10月28日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
5+阅读 · 2018年4月22日
VIP会员
Top
微信扫码咨询专知VIP会员