项目名称: Markov决策过程值函数逼近的基函数自动构造

项目编号: No.61273143

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 程玉虎

作者单位: 中国矿业大学

项目金额: 80万元

中文摘要: 强化学习是求解模型未知的Markov决策问题的有效方法。对于基于线性值函数逼近的连续空间强化学习来说,基函数的合理构造将直接影响Markov决策过程(MDP)值函数的逼近精度,进而影响强化学习方法的性能。为此,本项目拟利用图论的分析思想和方法,研究MDP值函数逼近的基函数自动构造方法。内容包括:为体现动作之间的差异性和全面描述MDP环境的基本拓扑结构,构建连续空间状态-动作图;为提高MDP值函数的逼近精度和泛化能力,研究状态-动作图上的基函数自动构造方法;为减小计算和存储代价,提高MDP值函数逼近的学习效率,设计面向稀疏化的基函数自动选择算法;将所提新型连续空间强化学习方法用以解决倒立摆平衡控制、电梯群组调度、机器人自主导航等典型Markov决策问题以验证其可行性和有效性。研究成果不但可以将强化学习方法的应用领域扩大到连续空间,而且可以进一步深化和丰富现有的强化学习理论。

中文关键词: 强化学习;马尔可夫决策过程;值函数;图论;迁移学习

英文摘要: Reinforcement learning is an effective method for solving Markov decision problems with unknown model. For reinforcement learning in continuous space based on linear value function approximation, the reasonable construction of basis functions influences the approximation accuracy of value function for Markov decision process (MDP) and further influences the performance of reinforcement learning methods. Therefore, the automatic construction method of basis functions for MDP value function approximation will be researched using the analysis idea and method of graph theory in the project. The main contents in our study include the following aspects. In order to embody the discrepancy between actions and to describe comprehensively the basic topology structure of MDP environment, a building method of a state-action graph for continuous space is proposed. In order to improve approximation accuracy and generalization ability of MDP value function, an automatic construction method of basis functions defined on the state-action graph is proposed. In order to decrease the computational and storage costs and to improve the learning efficiency of the MDP value function approximation, a sparsity-oriented automatic selection algorithm of basis functions is designed. In addition, the proposed new reinforcement learning metho

英文关键词: Reinforcement learning;Markov decision process;Value function;Graph thoery;Transfer learning

成为VIP会员查看完整内容
1

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
121+阅读 · 2021年8月25日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
28+阅读 · 2020年12月14日
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
用狄拉克函数来构造非光滑函数的光滑近似
PaperWeekly
0+阅读 · 2021年10月23日
强化学习开篇:Q-Learning原理详解
AINLP
34+阅读 · 2020年7月28日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
16+阅读 · 2018年1月31日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
23+阅读 · 2018年10月24日
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关VIP内容
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
121+阅读 · 2021年8月25日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
28+阅读 · 2020年12月14日
相关资讯
深入理解强化学习,看这篇就够了
PaperWeekly
5+阅读 · 2021年11月28日
用狄拉克函数来构造非光滑函数的光滑近似
PaperWeekly
0+阅读 · 2021年10月23日
强化学习开篇:Q-Learning原理详解
AINLP
34+阅读 · 2020年7月28日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
16+阅读 · 2018年1月31日
【强化学习】强化学习+深度学习=人工智能
产业智能官
51+阅读 · 2017年8月11日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员