【斯坦福博士论文】非平稳环境中的深度强化学习算法 - 专知VIP

会员服务 ·

15

非平稳环境 · 深度强化学习 · 斯坦福大学 (Stanford University) · 博士论文 ·

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习通常假设代理的学习环境是静态且不变的。然而，这一假设在强化学习的实际应用中很少成立。例如，在机器人应用中，非平稳性可能以多种方式表现出来，如需要在不可预测的地形中导航，或帮助人类用户处理其随时间变化的偏好。因此，快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性，我们考虑一个在决策时间步上不断发展的学习环境。更具体地说，学习环境中存在随时间变化的特征，并且这些特征可能会随着代理的行为而变化。为了应对这种动态性，代理必须学会最终独立应对这种非平稳性，并根据环境变化调整其行为，例如做出不同的决策以更好地帮助具有新偏好的用户。在本论文中，我们聚焦于为这种动态环境设计算法。具体而言，我们首先提出一个统一的框架，将环境的相关特征捕捉到一个紧凑的表示中。我们证明，在环境具有某些特性的情况下，这种表示可以仅通过与环境的交互来学习，而无需在训练过程中额外访问潜在特征。通过将环境视为一个顺序潜变量模型，其中随时间变化的特征为潜变量，我们可以利用无监督表示学习技术的进展，从数据中学习这一表示。此外，在可以建模这些特征的动态性的情况下，我们学习它们的预测模型，以预测它们如何变化，特别是在代理采取不同动作时如何响应。

在获得这样的表示后，我们可以设计学习目标来塑造代理的行为。本论文中我们刻画了几种非平稳性类型，如被动性与主动性，以及变化的频率，并利用这些特性设计更有效的策略学习算法。具体来说，利用所学的表示，我们提出了能够使代理（i）预测未来环境特征，从而实现更快速和更稳健的适应，和（ii）影响或塑造这些特征变化，以获得更高的长期奖励的目标。最后，当未来的潜在特征不可预测时，我们设计了能够通过探索环境主动收集有关这些特征信息的代理。

成为VIP会员查看完整内容

22

相关内容

非平稳环境

非平稳环境

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

25+阅读 · 10月27日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

34+阅读 · 9月22日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

26+阅读 · 9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

29+阅读 · 9月7日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

22+阅读 · 8月27日

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

专知会员服务

23+阅读 · 8月3日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

32+阅读 · 6月4日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

40+阅读 · 2023年9月19日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

47+阅读 · 2022年9月14日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

44+阅读 · 2022年5月10日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

16+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

75+阅读 · 2019年10月20日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

牛逼哄哄的图卷积神经网络将带来哪些机遇？

牛逼哄哄的图卷积神经网络将带来哪些机遇？

计算机视觉life

49+阅读 · 2019年3月25日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

14+阅读 · 2019年1月24日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

机器学习必知的15大框架

机器学习必知的15大框架

云栖社区

16+阅读 · 2017年12月10日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

机会物联网基于命名数据网络的信息检索机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

27+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

10+阅读 · 2013年12月31日

Generalized linear models with spatial dependence and a functional covariate

Arxiv

0+阅读 · 12月23日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

159+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

91+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

183+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

408+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

21+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

22+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

非平稳环境

深度强化学习

斯坦福大学 (Stanford University)

相关VIP内容

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

25+阅读 · 10月27日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

34+阅读 · 9月22日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

26+阅读 · 9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

29+阅读 · 9月7日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

22+阅读 · 8月27日

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

专知会员服务

23+阅读 · 8月3日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

32+阅读 · 6月4日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

40+阅读 · 2023年9月19日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体

专知会员服务

47+阅读 · 2022年9月14日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

44+阅读 · 2022年5月10日

热门VIP内容

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

16+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

75+阅读 · 2019年10月20日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

牛逼哄哄的图卷积神经网络将带来哪些机遇？

牛逼哄哄的图卷积神经网络将带来哪些机遇？

计算机视觉life

49+阅读 · 2019年3月25日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

14+阅读 · 2019年1月24日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

机器学习必知的15大框架

机器学习必知的15大框架

云栖社区

16+阅读 · 2017年12月10日

相关基金

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

机会物联网基于命名数据网络的信息检索机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

27+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

10+阅读 · 2013年12月31日

相关论文

Generalized linear models with spatial dependence and a functional covariate

Arxiv

0+阅读 · 12月23日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

159+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

91+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

183+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

408+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

21+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

22+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员