最新《强化学习导论》教程，32页pdf - 专知VIP

会员服务 ·

32

强化学习 ·

2023 年 4 月 5 日

最新《强化学习导论》教程，32页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在本文中，我们简要介绍了强化学习(RL)，特别强调随机逼近(SA)作为一个统一的主题。本文的范围包括马尔科夫奖励过程，马尔科夫决策过程，随机逼近算法，以及广泛使用的算法，如时间差分学习和Q-学习。 https://arxiv.org/pdf/2304.00803.pdf

本文对强化学习(RL)进行了简要的综述，特别强调随机逼近(SA)作为一个统一的主题。本文的范围包括马尔可夫奖励过程、马尔可夫决策过程、随机近似方法以及时间差分学习和Q-learning等广泛使用的算法。强化学习是一个庞大的主题，这篇简短的综述几乎无法准确地描述这个主题。有一些关于RL的优秀文本，如[4,27,34,33]。[25, 22, 3, 23, 2, 9, 10]对随机近似(SA)算法的动力学进行了分析。有兴趣的读者可以查阅这些来源以获得更多信息。在本综述中，用"强化学习"一词来指具有不确定模型的决策，当前的行动会改变系统的未来行为。因此，如果在未来的某个时间采取相同的行动，结果可能就不一样了。这个额外的特征将强化学习与不确定性下的“单纯”决策区分开来。图1相当武断地将决策问题分为四个象限。现在对每个象限的例子作简要说明。

成为VIP会员查看完整内容

58

相关内容

【干货书】贝叶斯推理和机器学习，610页pdf

专知会员服务

259+阅读 · 2021年10月8日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

不可错过！「强化学习导论」多伦多大学2021课程，附SLIDES与140页pdf

不可错过！「强化学习导论」多伦多大学2021课程，附SLIDES与140页pdf

专知会员服务

67+阅读 · 2021年3月24日

【经典书】数学统计教程，676页pdf

【经典书】数学统计教程，676页pdf

专知会员服务

81+阅读 · 2020年8月9日

生成对抗网络，10页pdf

生成对抗网络，10页pdf

专知

2+阅读 · 2022年11月23日

【2022新书】算法高维鲁棒统计，296页pdf与98页ppt

【2022新书】算法高维鲁棒统计，296页pdf与98页ppt

专知

4+阅读 · 2022年10月21日

【干货】强化学习介绍

【干货】强化学习介绍

人工智能学家

13+阅读 · 2018年6月24日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

【深度强化学习】深度强化学习揭秘

【深度强化学习】深度强化学习揭秘

产业智能官

21+阅读 · 2017年11月13日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

渐近展开方法在金融计量与金融工程中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

多维复发事件数据的统计建模及推断

国家自然科学基金

2+阅读 · 2012年12月31日

概率并发理论

国家自然科学基金

1+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

Cross-modality Data Augmentation for End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月18日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning

Arxiv

12+阅读 · 2021年12月28日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

VIP会员

相关主题

相关VIP内容

【干货书】贝叶斯推理和机器学习，610页pdf

专知会员服务

259+阅读 · 2021年10月8日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

不可错过！「强化学习导论」多伦多大学2021课程，附SLIDES与140页pdf

不可错过！「强化学习导论」多伦多大学2021课程，附SLIDES与140页pdf

专知会员服务

67+阅读 · 2021年3月24日

【经典书】数学统计教程，676页pdf

【经典书】数学统计教程，676页pdf

专知会员服务

81+阅读 · 2020年8月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

《多域时代中维持弹性军事训练：挑战与机遇》

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

相关资讯

生成对抗网络，10页pdf

生成对抗网络，10页pdf

专知

2+阅读 · 2022年11月23日

【2022新书】算法高维鲁棒统计，296页pdf与98页ppt

【2022新书】算法高维鲁棒统计，296页pdf与98页ppt

专知

4+阅读 · 2022年10月21日

【干货】强化学习介绍

【干货】强化学习介绍

人工智能学家

13+阅读 · 2018年6月24日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

【深度强化学习】深度强化学习揭秘

【深度强化学习】深度强化学习揭秘

产业智能官

21+阅读 · 2017年11月13日

相关基金

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

渐近展开方法在金融计量与金融工程中的应用

国家自然科学基金

3+阅读 · 2012年12月31日

多维复发事件数据的统计建模及推断

国家自然科学基金

2+阅读 · 2012年12月31日

概率并发理论

国家自然科学基金

1+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

相关论文

Cross-modality Data Augmentation for End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月18日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

Exploiting Fine-grained Face Forgery Clues via Progressive Enhancement Learning

Arxiv

12+阅读 · 2021年12月28日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

微信扫码咨询专知VIP会员