【牛津大学博士论文】理解深度强化学习的表示学习，228页pdf - 专知VIP

会员服务 ·

35

深度强化学习 · 表示学习 · 牛津大学 (University of Oxford) · 博士论文 ·

2024 年 1 月 6 日

【牛津大学博士论文】理解深度强化学习的表示学习，228页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

表示学习对于强化学习的实际成功至关重要。通过状态表示，一个代理可以描述其环境以有效地探索状态空间，泛化到新状态，并从延迟反馈中进行归因分配。这些表示可能是状态抽象、手工设计或固定特征，或由神经网络隐含。在本论文中，我们调查了状态表示的几个理想的理论属性，并利用这一分类，设计了新的原理性强化学习算法，旨在通过深度学习在大规模上学习这些状态表示。首先，我们考虑由行为指标引起的状态抽象及其泛化特性。我们展示了支持价值函数连续性对于强化学习中的泛化至关重要。结合这种形式化，我们提供了一个实证评估，比较了各种指标，并展示了邻域选择在强化学习算法中的重要性。然后，我们借鉴统计学习理论来描述任意状态特征在强化学习中泛化的含义。我们引入了一个称为表示的有效维度的新概念，它推动了对未见状态的泛化，并展示了其在Atari游戏中基于价值的深度强化学习中的用处。本论文的第三个贡献是一种可扩展算法，通过深度学习从大量辅助任务中学习状态表示。这是一种随机梯度下降方法，通过神经网络从少量条目中学习目标矩阵的主成分。最后，论文的最后部分介绍了我们对状态表示如何影响代理预测质量，以及这些预测如何塑造状态表示的发现。我们提供了一个正式的数学模型来研究这种现象，并展示了如何利用这些理论结果来提高学习过程的质量。

成为VIP会员查看完整内容

59

相关内容

深度强化学习

深度强化学习

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

专知会员服务

41+阅读 · 2023年11月27日

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

专知会员服务

23+阅读 · 2023年8月31日

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

专知会员服务

50+阅读 · 2023年7月25日

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

专知会员服务

53+阅读 · 2023年1月28日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

20+阅读 · 2023年1月5日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

40+阅读 · 2022年11月29日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知会员服务

72+阅读 · 2022年10月29日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

86+阅读 · 2022年10月16日

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知

3+阅读 · 2023年4月11日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知

8+阅读 · 2023年4月10日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【斯坦福博士论文】面向行业级神经推荐的数据驱动统计分片，110页pdf

【斯坦福博士论文】面向行业级神经推荐的数据驱动统计分片，110页pdf

专知

3+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【2022新书】机器学习中的概率数值计算，412页pdf

【2022新书】机器学习中的概率数值计算，412页pdf

专知

31+阅读 · 2022年7月7日

【干货书】计算机科学离散数学，627页pdf

【干货书】计算机科学离散数学，627页pdf

专知

64+阅读 · 2020年8月31日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

有限域上指数和与量子码的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

深度强化学习

牛津大学 (University of Oxford)

相关VIP内容

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

专知会员服务

41+阅读 · 2023年11月27日

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

专知会员服务

23+阅读 · 2023年8月31日

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

【MIT博士论文】在结构约束下的机器学习优化方法, 257页pdf

专知会员服务

39+阅读 · 2023年8月6日

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

专知会员服务

50+阅读 · 2023年7月25日

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

专知会员服务

53+阅读 · 2023年1月28日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

20+阅读 · 2023年1月5日

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

【苏黎世联邦理工博士论文】深度强化学习的体系结构，186页pdf

专知会员服务

40+阅读 · 2022年11月29日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知会员服务

72+阅读 · 2022年10月29日

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

【牛津大学博士论文】多模态概率推理的机器学习预测与协调，173页pdf

专知会员服务

86+阅读 · 2022年10月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

【阿姆斯特丹博士论文】将结构融入神经模型进行语言处理，159页pdf

专知

3+阅读 · 2023年4月11日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知

8+阅读 · 2023年4月10日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【斯坦福博士论文】面向行业级神经推荐的数据驱动统计分片，110页pdf

【斯坦福博士论文】面向行业级神经推荐的数据驱动统计分片，110页pdf

专知

3+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【2022新书】机器学习中的概率数值计算，412页pdf

【2022新书】机器学习中的概率数值计算，412页pdf

专知

31+阅读 · 2022年7月7日

【干货书】计算机科学离散数学，627页pdf

【干货书】计算机科学离散数学，627页pdf

专知

64+阅读 · 2020年8月31日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

相关基金

青少年执行功能与数学认知的关系研究

国家自然科学基金

2+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

有限域上指数和与量子码的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

174+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员