我们提出了一个由表示驱动的强化学习框架。通过将策略表示为它们预期值的估计,我们利用来自情境赌博机的技术来引导探索和利用。特别地,将策略网络嵌入到线性特征空间中,使我们能够将探索-利用问题重塑为表示-利用问题,其中良好的策略表示能够实现最优探索。我们通过将这个框架应用于进化和策略梯度方法来证明其有效性,这导致了与传统方法相比的显著性能提升。我们的框架为强化学习提供了新的视角,强调了策略表示在确定最优探索-利用策略中的重要性。

成为VIP会员查看完整内容
38

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
48+阅读 · 2022年6月17日
【ICML2022】Transformer是元强化学习器
专知会员服务
52+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
36+阅读 · 2022年5月21日
专知会员服务
18+阅读 · 2021年9月19日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
27+阅读 · 2021年5月24日
专知会员服务
81+阅读 · 2021年5月10日
【AAAI2023】基于序图的因果结构强化学习
专知
4+阅读 · 2022年11月25日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
48+阅读 · 2022年6月17日
【ICML2022】Transformer是元强化学习器
专知会员服务
52+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
36+阅读 · 2022年5月21日
专知会员服务
18+阅读 · 2021年9月19日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
27+阅读 · 2021年5月24日
专知会员服务
81+阅读 · 2021年5月10日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员