项目名称: 基于"非监督-监督-激励"集成学习模式的机器人行为自主学习系统研究

项目编号: No.61075096

项目类型: 面上项目

立项/批准年度: 2011

项目学科: 金属学与金属工艺

项目作者: 李军

作者单位: 重庆大学

项目金额: 10万元

中文摘要: 本项目对"非监督-监督-激励"集成学习模式中的核心部分进行了深入研究。首先,我们提出了基于GWR-RBF的自生长自消减构造性神经网络结构。通过对GWR(Growing When Requried)“#24863;知-动作”#25968;据缓存窗口和遗忘因子的引入、对RBF高斯基函数的简单二次函数逼近、以及对神经网络学习率阈度的动态调节,我们实现了针对所需机器人行为在网络结构稳定和计算量小的前提下“#38750;监督-监督”#27169;块的实时在线学习算法。其次,我们研究了激励学习模块的“ff-Policy”#30340;嵌入方式,即把Q-学习中的行为策略和学习策略分为两个通道,实现了“#19968;步式Q-学习”#31639;法先验知识的在线嵌入,从而使Q-学习算法能用于操作者的示教学习和机器人行为实时在线的优化。最后我们基于PeopleBot和Khepera-II移动机器人平台对我们提出的非监督-监督,和激励学习模式分别进行了验证,同时还完成了PeopleBot人机交互接口软件的二次开发平台设计与实现。这些成果已部分地反映在我们出版的一本英文专著和两篇EI论文中。

中文关键词: 非监督-监督-激励"学习;自生长自消减构造性神经网络;机器人行为;实时在线优化;示教学习

英文摘要: This project investigates the core parts of the integration of the "nonsupervised-supervised-reinforcement" learning paradigms. We first address the constructive neural networks based on growing and prunning mechanism of the GWR-RBF networks.Online realtime learning of the required behaviors is implemented based on the introdution of the sliding cache windows and the forgetting factors to the GWR network (Growing When Required),and based on the quadratic approximation of Gaussian funciton and the dynamic adjustment of the learning rate of the networks. We then present an "one-step" Q-learning algorithm for online embedding of the priori knowledge, in which the "off-policy" is used for dividing the learning into estimation policy and behavior policy, resulting in the usage of PbD approach (Programming by Demonstration) for robot behavior optimization. We finally carry out the software design of the human-machine interface on two real robots named PeopleBot and Khepera-II. the above achievements are partially presented in two papers and one work written in English.

英文关键词: nonsupervised-supervised-reinforcement learning; growing-prunning neural networks; robot behavior; online realtime optimization; programming by demonstration

成为VIP会员查看完整内容
1

相关内容

斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
125+阅读 · 2022年2月27日
专知会员服务
76+阅读 · 2021年9月27日
专知会员服务
28+阅读 · 2021年7月20日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
123+阅读 · 2021年3月30日
专知会员服务
38+阅读 · 2020年11月24日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
Python机器学习课程(代码与教程)
专知
36+阅读 · 2019年5月13日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【推荐】伪标签学习导论 - 一种半监督学习方法
机器学习研究会
12+阅读 · 2017年10月5日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
11+阅读 · 2018年3月23日
小贴士
相关VIP内容
斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
125+阅读 · 2022年2月27日
专知会员服务
76+阅读 · 2021年9月27日
专知会员服务
28+阅读 · 2021年7月20日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
123+阅读 · 2021年3月30日
专知会员服务
38+阅读 · 2020年11月24日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
相关资讯
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
11+阅读 · 2018年3月23日
微信扫码咨询专知VIP会员