我们首先在非稳态强化学习(RL)中提出并解决了代理与环境之间的“时间同步”问题,这是阻碍其实际应用的关键因素。在现实中,环境变化是基于墙钟时间(t)而不是集数(k)发生的,其中墙钟时间表示在固定持续时间t∈[0, T]内实际流逝的时间。在现有的工作中,在集数k,代理执行一条轨迹并训练策略,然后转到集数k+1。然而,在时间不同步的环境中,代理在时间tk分配∆t用于轨迹生成和训练,随后在tk+1 = tk + ∆t时转到下一集数。尽管集数总数(K)固定,代理根据交互时间(t1,t2,…,tK)的选择积累了不同的轨迹,这对策略的次优性差距产生了重大影响。我们提出了一个主动同步节奏(ProST)框架,该框架计算最优的{t1,t2,…,tK}(= {t}1∶K)。我们的主要贡献是,我们展示了最优的{t}1∶K在策略训练时间(代理节奏)与环境变化速度(环境节奏)之间进行权衡。从理论上讲,这项工作将最优的{t}1∶K建立为环境非稳态度的函数,同时还实现了亚线性动态遗憾。我们对各种高维非稳态环境进行的实验评估表明,ProST框架在最优的{t}1∶K下比现有方法实现了更高的在线回报。 https://www.zhuanzhi.ai/paper/dc534b1550d2e0d15202c1dd6cfab8d8

成为VIP会员查看完整内容
18

相关内容

【ICCV2023】保留模态结构改进多模态学习
专知会员服务
29+阅读 · 2023年8月28日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
43+阅读 · 2021年7月1日
专知会员服务
41+阅读 · 2021年6月10日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【AAAI2023】基于序图的因果结构强化学习
专知
5+阅读 · 2022年11月25日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年11月10日
Arxiv
0+阅读 · 2023年11月9日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
29+阅读 · 2023年8月28日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
【CVPR2022】基于密集学习的半监督目标检测
专知会员服务
20+阅读 · 2022年4月19日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
43+阅读 · 2021年7月1日
专知会员服务
41+阅读 · 2021年6月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员