AutoRL 超参数景观 (AutoRL Hyperparameter Landscapes) - 专知论文

会员服务 ·

0

超参数 · 参数优化 · SAC · DQN · 超参数优化 ·

2023 年 4 月 5 日

AutoRL Hyperparameter Landscapes

翻译：AutoRL 超参数景观

Aditya Mohan,Carolin Benjamins,Konrad Wienecke,Alexander Dockhorn,Marius Lindauer

Although Reinforcement Learning (RL) has shown to be capable of producing impressive results, its use is limited by the impact of its hyperparameters on performance. This often makes it difficult to achieve good results in practice. Automated RL (AutoRL) addresses this difficulty, yet little is known about the dynamics of the hyperparameter landscapes that hyperparameter optimization (HPO) methods traverse in search of optimal configurations. In view of existing AutoRL approaches dynamically adjusting hyperparameter configurations, we propose an approach to build and analyze these hyperparameter landscapes not just for one point in time but at multiple points in time throughout training. Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN and SAC) in different kinds of environments (Cartpole and Hopper). This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses.

翻译：尽管强化学习 (RL) 已经证明能够产生令人印象深刻的结果，但其使用受到超参数对性能的影响的限制。这通常使实践中难以取得良好的结果。自动 RL (AutoRL) 解决了这个困难，但很少有人了解超参数优化 (HPO) 方法在寻找最佳配置时所穿越的超参数景观的动态。考虑到现有的 AutoRL 方法动态调整超参数配置，我们提出了一种方法，不仅在训练的一个时间点，而且在多个时间点构建和分析这些超参数景观。针对一个重要的开放问题，关于这种动态 AutoRL 方法的合理性，我们提供了深入的经验性证据，表明不同种类的环境（Cartpole 和 Hopper）中来自 RL 文献的代表性算法（DQN 和 SAC）的超参数景观随时间强烈变化。这支持了超参数在训练期间应该动态调整的理论，并显示了通过景观分析可以获得有关 AutoRL 问题的更多见解的潜力。

0

相关内容

超参数

在贝叶斯统计中，超参数是先验分布的参数；该术语用于将它们与所分析的基础系统的模型参数区分开。

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

专知会员服务

46+阅读 · 2023年1月26日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用

专知会员服务

28+阅读 · 2022年12月26日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

【47页综述】牛津大学等发布AutoRL综述，还在手动调参吗？你已经落后了

【47页综述】牛津大学等发布AutoRL综述，还在手动调参吗？你已经落后了

专知会员服务

33+阅读 · 2022年2月1日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知会员服务

56+阅读 · 2020年2月10日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知

7+阅读 · 2022年6月3日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

ATP13A2基因亚型Ala746Thr和Thr12met突变与新疆维吾尔族早发型和家族型帕金森病临床的相关研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高维大规模数据的集成建模方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

亚热带森林景观中可溶性有机碳的时空格局及土壤截存机制

国家自然科学基金

0+阅读 · 2014年12月31日

具有曲率突变特征微结构的触针斜率自适应形貌测量方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

海南岛人工红树林和自然(或近自然)红树林湿地生态系统健康比较研究

国家自然科学基金

0+阅读 · 2013年12月31日

东北黑土区农业非点源磷污染最佳管理措施空间优化配置研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于交通信息时空分析的城市地面公交专用道路资源动态配置方法

国家自然科学基金

0+阅读 · 2012年12月31日

可压缩Navier-Stokes方程的一些数学问题

国家自然科学基金

0+阅读 · 2012年12月31日

基于动态交通网络的分段道路拥挤收费策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

一类necroptosis诱导剂抗肿瘤干细胞的研究

国家自然科学基金

0+阅读 · 2009年12月31日

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

Arxiv

0+阅读 · 2023年5月25日

Active Learning Principles for In-Context Learning with Large Language Models

Arxiv

0+阅读 · 2023年5月23日

Dr.ICL: Demonstration-Retrieved In-context Learning

Arxiv

0+阅读 · 2023年5月23日

Learning Action Changes by Measuring Verb-Adverb Textual Relationships

Arxiv

0+阅读 · 2023年5月23日

Adversarial Color Projection: A Projector-based Physical Attack to DNNs

Arxiv

0+阅读 · 2023年5月23日

Pretraining in Deep Reinforcement Learning: A Survey

Arxiv

21+阅读 · 2022年11月8日

A Survey on Automated Driving System Testing: Landscapes and Trends

Arxiv

12+阅读 · 2022年6月13日

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Arxiv

33+阅读 · 2022年1月11日

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Arxiv

15+阅读 · 2020年5月13日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

VIP会员

文章信息

相关主题

超参数优化

相关VIP内容

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

专知会员服务

46+阅读 · 2023年1月26日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用

专知会员服务

28+阅读 · 2022年12月26日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

【47页综述】牛津大学等发布AutoRL综述，还在手动调参吗？你已经落后了

【47页综述】牛津大学等发布AutoRL综述，还在手动调参吗？你已经落后了

专知会员服务

33+阅读 · 2022年2月1日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知会员服务

56+阅读 · 2020年2月10日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知

7+阅读 · 2022年6月3日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

相关论文

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

Arxiv

0+阅读 · 2023年5月25日

Active Learning Principles for In-Context Learning with Large Language Models

Arxiv

0+阅读 · 2023年5月23日

Dr.ICL: Demonstration-Retrieved In-context Learning

Arxiv

0+阅读 · 2023年5月23日

Learning Action Changes by Measuring Verb-Adverb Textual Relationships

Arxiv

0+阅读 · 2023年5月23日

Adversarial Color Projection: A Projector-based Physical Attack to DNNs

Arxiv

0+阅读 · 2023年5月23日

Pretraining in Deep Reinforcement Learning: A Survey

Arxiv

21+阅读 · 2022年11月8日

A Survey on Automated Driving System Testing: Landscapes and Trends

Arxiv

12+阅读 · 2022年6月13日

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Automated Reinforcement Learning (AutoRL): A Survey and Open Problems

Arxiv

33+阅读 · 2022年1月11日

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Arxiv

15+阅读 · 2020年5月13日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

相关基金

ATP13A2基因亚型Ala746Thr和Thr12met突变与新疆维吾尔族早发型和家族型帕金森病临床的相关研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高维大规模数据的集成建模方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

亚热带森林景观中可溶性有机碳的时空格局及土壤截存机制

国家自然科学基金

0+阅读 · 2014年12月31日

具有曲率突变特征微结构的触针斜率自适应形貌测量方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

海南岛人工红树林和自然(或近自然)红树林湿地生态系统健康比较研究

国家自然科学基金

0+阅读 · 2013年12月31日

东北黑土区农业非点源磷污染最佳管理措施空间优化配置研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于交通信息时空分析的城市地面公交专用道路资源动态配置方法

国家自然科学基金

0+阅读 · 2012年12月31日

可压缩Navier-Stokes方程的一些数学问题

国家自然科学基金

0+阅读 · 2012年12月31日

基于动态交通网络的分段道路拥挤收费策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

一类necroptosis诱导剂抗肿瘤干细胞的研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员