学会达到目标对于智能代理来说是一个具有高实用性的能力。例如,这包括许多导航任务(“前往目标X”)、机器人操作(“达到机器人手臂的位置Y”)或玩游戏的场景(“通过实现目标Z赢得游戏”)。作为一个与世界互动的生物,我不断地受到各种范围和难度的目标的驱使。强化学习(RL)有望为面向目标的行为提供框架和学习方法。目标可以被建模为必须通过顺序交互和探索未知环境来达到的特定环境配置。尽管已经提出了各种用于目标导向的深度RL算法,但现有的方法往往缺乏原则性的理解、样本效率和通用性能。实际上,即使在有限的状态和行为的基本情境中,也很少有面向目标的RL的理论分析。 我们首先关注一个受监督的面向目标的RL场景,其中作为问题定义的一部分提供了要以最小的总预期成本达到的目标状态。在正式化这种通常被称为随机最短路径(SSP)的在线学习问题后,我们介绍了两个无悔算法(一个是文献中的第一个,另一个达到了近乎最优的保证)。 除了训练我们的RL代理解决一个任务,我们还希望它学会自主解决各种任务,而无需任何奖励监督。在这个具有挑战性的无监督RL场景中,我们提倡“设定你自己的目标”(SYOG),这建议代理学会本能地选择和达到它自己的目标状态。我们在各种设置中为这种流行的启发式方法导出了有限时间的保证,每个设置都有其特定的学习目标和技术挑战。作为一个示例,我们提出了一个严格的分析,该分析的算法原则是针对“不确定”的目标,我们还将其固定在深度RL中。这篇论文的主要焦点和贡献是启发对RL中的目标导向探索进行原则性分析,无论是在受监督还是无监督的场景中。我们希望它能够提出有前景的研究方向,以提高实际应用中面向目标的RL算法的解释性和样本效率

成为VIP会员查看完整内容
26

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
71+阅读 · 2023年2月23日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员