【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型 - 专知VIP

会员服务 ·

24

密歇根大学 (University of Michigan) · 博士论文 · 深度强化学习 ·

2023 年 1 月 11 日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

**强化学习(Reinforcement learning, RL)是一种机器学习范式，研究智能体如何学习预测和控制自己的经验流，以最大化长期累积奖励。**在过去的十年中，深度强化学习(deep reinforcement learning, DeepRL)是一个旨在将强化学习中的序列决策技术与深度学习提供的强大的非线性函数逼近工具相结合的子领域，取得了巨大的成功，例如在古老的棋盘游戏围棋中击败人类冠军，以及在复杂的战略游戏如Dota 2和星际争霸中取得专家级别的表现。它还对现实世界的应用产生了影响。例如机器人控制、平流层气球导航和控制核聚变等离子体。

https://deepblue.lib.umich.edu/handle/2027.42/174601

**本文旨在进一步推进深度学习技术。**具体而言，本文在以下四个方面做出了贡献:1)在奖励设计方面，提出了一种新的元学习算法，用于学习有助于策略优化的奖励函数。该算法提高了策略梯度方法的性能，并优于手工设计的启发式奖励函数。在后续研究中，学习到的奖励函数可以捕获关于长期探索和开发的知识，并可以泛化到不同的强化学习算法和环境动态的变化。2)在时间信用分配中，本文探索了基于成对权重的方法，这些权重是采取行动的状态、收到奖励的状态和之间经过的时间的函数。本文开发了一种元梯度算法，用于在策略学习期间自适应这些权重。实验表明，该方法比其他方法取得了更好的性能。3)在状态表示学习中，本文研究使用随机深度动作条件预测任务作为辅助任务，以帮助智能体学习更好的状态表示。实验表明，随机的深度动作条件预测通常可以产生比手工设计的辅助任务更好的性能。4)在模型学习和规划中，提出了一种学习价值等价模型的新方法，这是一类最近表现出强大经验性能的模型，推广了现有的方法。实验结果表明，该方法能够提高模型预测精度和下游规划过程的控制性能。

成为VIP会员查看完整内容

36

相关内容

密歇根大学 (University of Michigan)

密歇根大学 (University of Michigan)

密歇根大学是美国的一所顶尖公立院校，被誉为中西部的哈佛。密歇根大学的主校区在底特律的卫星城安娜堡，绰号是狼獾。它成立于1817年，被称为公立大学的典范，是公立常青藤之一。

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

专知会员服务

63+阅读 · 2022年11月29日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

专知会员服务

27+阅读 · 2022年7月21日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

118+阅读 · 2022年5月7日

牛津大学发布60页最新《强化学习金融应用进展》综述论文

牛津大学发布60页最新《强化学习金融应用进展》综述论文

专知会员服务

116+阅读 · 2021年12月12日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知

5+阅读 · 2022年11月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

南大最新综述论文：基于模型的强化学习

南大最新综述论文：基于模型的强化学习

新智元

8+阅读 · 2022年8月1日

同济大学用深度强化学习算法训练了一个“股票交易智能体”，年化收益率近达65%

同济大学用深度强化学习算法训练了一个“股票交易智能体”，年化收益率近达65%

深度强化学习实验室

2+阅读 · 2022年1月23日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

AI前线

8+阅读 · 2021年12月13日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

新智元

14+阅读 · 2018年11月24日

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

服务交互中顾客价值共创行为的管理策略研究——人力资源管理的视角

国家自然科学基金

1+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

基于在线机器学习的组合算法交易策略研究

国家自然科学基金

5+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

基于计算智能的群体行为控制模型及路径生成研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于损失厌恶的供应链决策行为与管理策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

高压断路器运行状态多智能体信息融合评估与预测理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

A Multiplicative Value Function for Safe and Efficient Reinforcement Learning

Arxiv

0+阅读 · 2023年3月7日

UAV Path Planning Employing MPC- Reinforcement Learning Method Considering Collision Avoidance

Arxiv

0+阅读 · 2023年3月7日

Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes

Arxiv

0+阅读 · 2023年3月6日

Data Association Aware POMDP Planning with Hypothesis Pruning Performance Guarantees

Arxiv

0+阅读 · 2023年3月3日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

45+阅读 · 2022年8月2日

Reinforcement Learning on Graph: A Survey

Arxiv

67+阅读 · 2022年4月13日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

Tensor Decompositions for temporal knowledge base completion

Arxiv

10+阅读 · 2020年4月10日

Deep Reinforcement Learning: An Overview

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

密歇根大学 (University of Michigan)

深度强化学习

相关VIP内容

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

专知会员服务

63+阅读 · 2022年11月29日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

推荐！《医疗保健中强化学习的离策略评估》哈佛大学181页博士论文

专知会员服务

27+阅读 · 2022年7月21日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

118+阅读 · 2022年5月7日

牛津大学发布60页最新《强化学习金融应用进展》综述论文

牛津大学发布60页最新《强化学习金融应用进展》综述论文

专知会员服务

116+阅读 · 2021年12月12日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

「基于课程学习的深度强化学习」研究综述

「基于课程学习的深度强化学习」研究综述

专知

9+阅读 · 2022年11月28日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知

5+阅读 · 2022年11月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

南大最新综述论文：基于模型的强化学习

南大最新综述论文：基于模型的强化学习

新智元

8+阅读 · 2022年8月1日

同济大学用深度强化学习算法训练了一个“股票交易智能体”，年化收益率近达65%

同济大学用深度强化学习算法训练了一个“股票交易智能体”，年化收益率近达65%

深度强化学习实验室

2+阅读 · 2022年1月23日

DeepMind提出强化学习新方法，可实现人机合作

DeepMind提出强化学习新方法，可实现人机合作

AI前线

8+阅读 · 2021年12月13日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

新智元

14+阅读 · 2018年11月24日

相关基金

情绪对动作控制影响的神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

服务交互中顾客价值共创行为的管理策略研究——人力资源管理的视角

国家自然科学基金

1+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

基于在线机器学习的组合算法交易策略研究

国家自然科学基金

5+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

基于计算智能的群体行为控制模型及路径生成研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于损失厌恶的供应链决策行为与管理策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

高压断路器运行状态多智能体信息融合评估与预测理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

A Multiplicative Value Function for Safe and Efficient Reinforcement Learning

Arxiv

0+阅读 · 2023年3月7日

UAV Path Planning Employing MPC- Reinforcement Learning Method Considering Collision Avoidance

Arxiv

0+阅读 · 2023年3月7日

Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision Processes

Arxiv

0+阅读 · 2023年3月6日

Data Association Aware POMDP Planning with Hypothesis Pruning Performance Guarantees

Arxiv

0+阅读 · 2023年3月3日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

45+阅读 · 2022年8月2日

Reinforcement Learning on Graph: A Survey

Arxiv

67+阅读 · 2022年4月13日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

Tensor Decompositions for temporal knowledge base completion

Arxiv

10+阅读 · 2020年4月10日

Deep Reinforcement Learning: An Overview

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

微信扫码咨询专知VIP会员