强化学习关键技术及其在机器人行为学习中的应用 - 专知基金

会员服务 ·

2

强化学习 · 行为学习 · 基函数 · Actor-Critic学习 · 知识迁移 ·

2009 年 12 月 31 日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

国家自然科学基金委员会

项目名称： 强化学习关键技术及其在机器人行为学习中的应用

项目编号： No.60974050

项目类型： 面上项目

立项/批准年度： 2010

项目学科： 自动化技术、计算机技术

项目作者： 程玉虎

作者单位： 中国矿业大学

项目金额： 31万元

中文摘要： 针对强化学习存在的基函数选取困难、学习速度慢及算法收敛性难以保证等问题，设计一类有效的强化学习控制方法，并将其应用于机器人行为学习领域。研究内容包括：基于图上测地高斯基函数的强化学习、基于自然策略梯度的强化学习、基于知识迁移的强化学习。为了能够有效反映机器人世界的拓扑结构，引入测地高斯基函数逼近值函数，并通过递归策略迭代实现机器人的在线、增量式学习；为避免由于值函数逼近误差造成的策略震荡，研究黎曼空间中的自然策略梯度强化学习算法；进一步，如果具有不同传感器-驱动器的异构机器人面临一系列相关或者类似任务时，借助于认知心理学中的知识迁移概念，实现源任务与目标任务间的自主映射以有效提高强化学习的速度。通过在移动机器人行为学习问题中的应用，验证上述强化学习控制方法的可行性和有效性。研究成果将深化和丰富现有的强化学习理论，增强机器人的自主能力。

中文关键词： 强化学习；行为学习；基函数；Actor-Critic学习；知识迁移

英文摘要：

英文关键词： reinforcement learning；behavior learning；basis function；Actor-Critic learning；knowledge transfer

成为VIP会员查看完整内容

21

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

231+阅读 · 2022年2月3日

强化学习的自动驾驶控制技术研究进展

专知会员服务

139+阅读 · 2021年2月17日

深度强化学习在智能制造中的应用展望综述

深度强化学习在智能制造中的应用展望综述

专知会员服务

98+阅读 · 2021年1月28日

深度强化学习算法与应用研究现状综述

专知会员服务

138+阅读 · 2021年1月13日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

基于深度强化学习的组合优化研究进展

专知会员服务

88+阅读 · 2020年12月11日

【博士论文】复杂场景中的人群行为解析及其应用

专知会员服务

46+阅读 · 2020年12月8日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

【2022新书】强化学习工业应用

【2022新书】强化学习工业应用

专知

18+阅读 · 2022年2月3日

改善机器人模仿学习的决断力

改善机器人模仿学习的决断力

TensorFlow

3+阅读 · 2022年1月10日

深入理解强化学习，看这篇就够了

深入理解强化学习，看这篇就够了

PaperWeekly

5+阅读 · 2021年11月28日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

152页简明《计算机视觉》入门教程，带你回顾CV发展脉络（附下载）

152页简明《计算机视觉》入门教程，带你回顾CV发展脉络（附下载）

专知

32+阅读 · 2019年1月6日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于认知学习的智能机器人控制系统关键问题的研究

国家自然科学基金

7+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于特殊矩阵的网络牵制控制研究及其在群体机器人中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于事件的强化学习及其在群机器人优化控制中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

Spiking神经网络在移动机器人感知及控制中的应用研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于视频分析的儿童行为研究

国家自然科学基金

1+阅读 · 2011年12月31日

强化学习迁移技术及其在交互式游戏中的应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

受基底神经节启发的机器人行为选择与行为学习研究

国家自然科学基金

0+阅读 · 2009年12月31日

A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning

A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning

Arxiv

0+阅读 · 2022年4月20日

Discretizations of Stochastic Evolution Equations in Variational Approach Driven by Jump-Diffusion

Arxiv

0+阅读 · 2022年4月19日

Development of A Hermite Weighted Compact Nonlinear Scheme based on the Two-Stage Fourth-Order Temporal Accurate Framework

Arxiv

0+阅读 · 2022年4月19日

Meta-Learning through Hebbian Plasticity in Random Networks

Arxiv

0+阅读 · 2022年4月19日

On Arbitrary Compression for Decentralized Consensus and Stochastic Optimization over Directed Networks

Arxiv

0+阅读 · 2022年4月18日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

Actor-Critic学习

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关VIP内容

【2022新书】强化学习工业应用，408页pdf

【2022新书】强化学习工业应用，408页pdf

专知会员服务

231+阅读 · 2022年2月3日

强化学习的自动驾驶控制技术研究进展

专知会员服务

139+阅读 · 2021年2月17日

深度强化学习在智能制造中的应用展望综述

深度强化学习在智能制造中的应用展望综述

专知会员服务

98+阅读 · 2021年1月28日

深度强化学习算法与应用研究现状综述

专知会员服务

138+阅读 · 2021年1月13日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

基于深度强化学习的组合优化研究进展

专知会员服务

88+阅读 · 2020年12月11日

【博士论文】复杂场景中的人群行为解析及其应用

专知会员服务

46+阅读 · 2020年12月8日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

相关资讯

【2022新书】强化学习工业应用

【2022新书】强化学习工业应用

专知

18+阅读 · 2022年2月3日

改善机器人模仿学习的决断力

改善机器人模仿学习的决断力

TensorFlow

3+阅读 · 2022年1月10日

深入理解强化学习，看这篇就够了

深入理解强化学习，看这篇就够了

PaperWeekly

5+阅读 · 2021年11月28日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

152页简明《计算机视觉》入门教程，带你回顾CV发展脉络（附下载）

152页简明《计算机视觉》入门教程，带你回顾CV发展脉络（附下载）

专知

32+阅读 · 2019年1月6日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于认知学习的智能机器人控制系统关键问题的研究

国家自然科学基金

7+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于特殊矩阵的网络牵制控制研究及其在群体机器人中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于事件的强化学习及其在群机器人优化控制中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

Spiking神经网络在移动机器人感知及控制中的应用研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于视频分析的儿童行为研究

国家自然科学基金

1+阅读 · 2011年12月31日

强化学习迁移技术及其在交互式游戏中的应用研究

国家自然科学基金

0+阅读 · 2011年12月31日

受基底神经节启发的机器人行为选择与行为学习研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning

A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning

Arxiv

0+阅读 · 2022年4月20日

Discretizations of Stochastic Evolution Equations in Variational Approach Driven by Jump-Diffusion

Arxiv

0+阅读 · 2022年4月19日

Development of A Hermite Weighted Compact Nonlinear Scheme based on the Two-Stage Fourth-Order Temporal Accurate Framework

Arxiv

0+阅读 · 2022年4月19日

Meta-Learning through Hebbian Plasticity in Random Networks

Arxiv

0+阅读 · 2022年4月19日

On Arbitrary Compression for Decentralized Consensus and Stochastic Optimization over Directed Networks

Arxiv

0+阅读 · 2022年4月18日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员