《改进单智能体和多智能体深度强化学习方法》219页 - 专知VIP

会员服务 ·

30

AI与军事 · 多智能体 · 深度强化学习 · 博士论文 ·

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（RL）是一种框架，在这种框架中，智能体通过与环境的交互，以行动奖励或惩罚的形式获得数据驱动的反馈，从而学会做出决策。深度 RL 将深度学习与 RL 相结合，利用深度神经网络的强大功能来处理复杂的高维数据。利用深度 RL 框架，我们的机器学习研究界在使机器能够在长时间范围内做出连续决策方面取得了巨大进步。这些进步包括在雅达利（Atari）游戏中实现超人性能[Mnih 等人，2015]，掌握围棋游戏，击败人类世界冠军[Silver 等人，2017]，提供强大的推荐系统[GomezUribe 和 Hunt，2015, Singh 等人，2021]。本论文的重点是找出一些阻碍 RL 智能体在其特定环境中学习的关键挑战，并改进方法，从而提高智能体的性能、改善样本效率以及学习到的智能体策略的普适性。

在论文的第一部分，我们将重点放在单智能体 RL 设置中的探索上，在单智能体 RL 设置中，智能体必须与复杂的环境交互以追求目标。不探索环境的智能体不可能获得高性能，因为它会错过关键奖励，因此无法学习到最佳行为。一个关键的挑战来自于奖励稀少的环境，在这种环境中，智能体只有在任务完成后才会收到反馈，这使得探索更具挑战性。我们提出了一种能进行语义探索的新方法，从而提高了样本效率和稀疏奖励任务的性能。

在论文的第二部分，我们将重点放在合作式多智能体强化学习（MARL）上，这是对通常的 RL 设置的扩展，我们考虑多个智能体在同一环境中为共同的任务进行交互。在多智能体任务中，各智能体之间需要进行大量协调，并对协调失误进行严格惩罚，而最先进的 MARL 方法往往无法学习到有用的行为，因为各智能体会陷入次优平衡状态。另一个挑战是在所有智能体的联合行动空间中进行探索，而这一空间会随着智能体数量的增加而呈指数级增长。为了应对这些挑战，我们提出了通用价值探索和可扩展的基于角色的学习等创新方法。这些方法有助于改善智能体之间的协调，加快探索速度，并增强智能体适应新环境和新任务的能力，展示零镜头泛化能力，从而提高样本效率。最后，我们研究了合作式 MARL 中基于独立策略的方法，其中每个智能体都将其他智能体视为环境的一部分。我们表明，在一个流行的多智能体基准上，这种方法的表现优于最先进的联合学习方法。

总之，本论文的贡献大大提高了深度（多智能体）强化学习的最新水平。本论文中开发的智能体可以高效地探索其环境以提高采样效率，学习需要大量多智能体协调的任务，并在各种任务中实现零点泛化。

成为VIP会员查看完整内容

55

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

44+阅读 · 2月26日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

38+阅读 · 2月12日

《用于自主网络行动的竞争性强化学习》113页

《用于自主网络行动的竞争性强化学习》113页

专知会员服务

27+阅读 · 1月12日

《面向多计算系统的人工智能自主决策》330页

《面向多计算系统的人工智能自主决策》330页

专知会员服务

60+阅读 · 2024年11月21日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

46+阅读 · 2024年8月20日

基于人工反馈的强化学习综述

基于人工反馈的强化学习综述

专知会员服务

64+阅读 · 2023年12月25日

《利用卷积神经网络通过强化学习开发稳健的战斗行为》132页论文

《利用卷积神经网络通过强化学习开发稳健的战斗行为》132页论文

专知会员服务

50+阅读 · 2023年5月22日

深度强化学习理论最新进展，113页ppt

深度强化学习理论最新进展，113页ppt

专知会员服务

77+阅读 · 2022年5月20日

【KDD2020】图深度学习:基础、进展与应用，182页ppt

【KDD2020】图深度学习:基础、进展与应用，182页ppt

专知会员服务

140+阅读 · 2020年8月30日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知会员服务

80+阅读 · 2020年8月30日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

58+阅读 · 2023年4月5日

【2022新书】元学习: 理论，算法和应用, 404页pdf

【2022新书】元学习: 理论，算法和应用, 404页pdf

专知

25+阅读 · 2022年11月27日

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

专知

33+阅读 · 2022年7月15日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

27+阅读 · 2022年7月14日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

【2022新书】知识表示和机器学习的预测和分析，232页pdf

【2022新书】知识表示和机器学习的预测和分析，232页pdf

专知

41+阅读 · 2022年3月12日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知

35+阅读 · 2020年8月29日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

36+阅读 · 2020年5月2日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Generalization capabilities and robustness of hybrid models grounded in physics compared to purely deep learning models

Arxiv

0+阅读 · 2月17日

Enhancing medical vision-language contrastive learning via inter-matching relation modelling

Arxiv

0+阅读 · 2月7日

Simulation of microstructures and machine learning

Arxiv

0+阅读 · 1月30日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

478+阅读 · 2023年3月31日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

VIP会员

相关主题

深度强化学习

相关VIP内容

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

《论多智能体决策的复杂性：从博弈学习到部分监控》115页

专知会员服务

44+阅读 · 2月26日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

38+阅读 · 2月12日

《用于自主网络行动的竞争性强化学习》113页

《用于自主网络行动的竞争性强化学习》113页

专知会员服务

27+阅读 · 1月12日

《面向多计算系统的人工智能自主决策》330页

《面向多计算系统的人工智能自主决策》330页

专知会员服务

60+阅读 · 2024年11月21日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

46+阅读 · 2024年8月20日

基于人工反馈的强化学习综述

基于人工反馈的强化学习综述

专知会员服务

64+阅读 · 2023年12月25日

《利用卷积神经网络通过强化学习开发稳健的战斗行为》132页论文

《利用卷积神经网络通过强化学习开发稳健的战斗行为》132页论文

专知会员服务

50+阅读 · 2023年5月22日

深度强化学习理论最新进展，113页ppt

深度强化学习理论最新进展，113页ppt

专知会员服务

77+阅读 · 2022年5月20日

【KDD2020】图深度学习:基础、进展与应用，182页ppt

【KDD2020】图深度学习:基础、进展与应用，182页ppt

专知会员服务

140+阅读 · 2020年8月30日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知会员服务

80+阅读 · 2020年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

58+阅读 · 2023年4月5日

【2022新书】元学习: 理论，算法和应用, 404页pdf

【2022新书】元学习: 理论，算法和应用, 404页pdf

专知

25+阅读 · 2022年11月27日

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

【2022新书】深度学习基础：设计下一代机器智能算法，390页pdf

专知

33+阅读 · 2022年7月15日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

27+阅读 · 2022年7月14日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

【2022新书】知识表示和机器学习的预测和分析，232页pdf

【2022新书】知识表示和机器学习的预测和分析，232页pdf

专知

41+阅读 · 2022年3月12日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知

35+阅读 · 2020年8月29日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

36+阅读 · 2020年5月2日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

相关基金

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

Generalization capabilities and robustness of hybrid models grounded in physics compared to purely deep learning models

Arxiv

0+阅读 · 2月17日

Enhancing medical vision-language contrastive learning via inter-matching relation modelling

Arxiv

0+阅读 · 2月7日

Simulation of microstructures and machine learning

Arxiv

0+阅读 · 1月30日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

478+阅读 · 2023年3月31日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员