For a general purpose optimization problem over a finite rectangle region, this paper pioneers a unified slot machine framework for global optimization by transforming the search for global optimizer(s) to the optimal strategy formulation of a bandit process in infinite policy sets and proves that two-armed bandit is enough. By leveraging the strategic bandit process-driven optimization framework, we introduce a new {\bf S}trategic {\bf M}onte {\bf C}arlo {\bf O}ptimization (SMCO) algorithm that coordinate-wisely generates points from multiple paired distributions and can be implemented parallel for high-dimensional continuous functions. Our SMCO algorithm, equipped with tree search that broadens the optimal policy search space of slot machine for attaining the global optimizer(s) of a multi-modal function, facilitates fast learning via trial and error. We provide a strategic law of large numbers for nonlinear expectations in bandit settings, and establish that our SMCO algorithm converges to global optimizer(s) almost surely. Unlike the standard gradient descent ascent (GDA) that uses a one-leg walk to climb the mountain and is sensitive to starting points and step sizes, our SMCO algorithm takes a two-leg walk to the peak by using the two-sided sampling from the paired distributions and is not sensitive to initial point selection or step size constraints. Numerical studies demonstrate that the new SMCO algorithm outperforms GDA, particle swarm optimization and simulated annealing in both convergence accuracy and speed. Our SMCO algorithm should be extremely useful for finding optimal tuning parameters in many large scale complex optimization problems.


翻译:暂无翻译

0
下载
关闭预览

相关内容

【ACL2020】多模态信息抽取,365页ppt
专知会员服务
151+阅读 · 2020年7月6日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
CVE-2018-7600 - Drupal 7.x 远程代码执行exp
黑客工具箱
14+阅读 · 2018年4月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
12+阅读 · 2021年9月13日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
CVE-2018-7600 - Drupal 7.x 远程代码执行exp
黑客工具箱
14+阅读 · 2018年4月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员