在寻找最优策略的过程中,强化学习(RL)方法通常除关注期望回报之外,很少顾及已学习策略的其他性质。因此,即便训练成功,也难以刻画将被学得的是哪些策略以及它们将如何行动。本文提出了一个用于策略优化的理论框架,通过熵正则化温度趋零与一种温度解耦手法,保证收敛到某个特定的最优策略。我们的做法在正则化温度趋于零时,实现一个可解释且保持多样性的最优策略,并确保由策略派生的对象——价值函数回报分布——也随之收敛。在该方法的一个具体实例中,得到的策略将以均匀概率对所有最优动作进行采样。借助所提出的温度解耦手法,我们进一步给出一种算法,能够以任意精度估计与其可解释、保持多样性的最优策略相对应的回报分布

成为VIP会员查看完整内容
0

相关内容

【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
12+阅读 · 5月25日
【ICML2024】基于正则化的持续学习的统计理论
专知会员服务
19+阅读 · 2024年6月11日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
23+阅读 · 2021年10月6日
专知会员服务
19+阅读 · 2021年8月15日
专知会员服务
12+阅读 · 2021年6月20日
【WSDM2021】基于演化状态图的时间序列事件预测
专知会员服务
54+阅读 · 2020年12月1日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
12+阅读 · 5月25日
【ICML2024】基于正则化的持续学习的统计理论
专知会员服务
19+阅读 · 2024年6月11日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
23+阅读 · 2021年10月6日
专知会员服务
19+阅读 · 2021年8月15日
专知会员服务
12+阅读 · 2021年6月20日
【WSDM2021】基于演化状态图的时间序列事件预测
专知会员服务
54+阅读 · 2020年12月1日
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员