【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习 - 专知VIP

会员服务 ·

25

华盛顿大学（University of Washington） · 强化学习 ·

2022 年 11 月 10 日

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们研究了怎样的数据集假设可以解决离线的二人零和马尔可夫博弈。与离线单智能体马尔可夫决策过程形成鲜明对比的是，我们证明了在离线二人零和马尔可夫博弈中，单一策略集中假设对于学习纳什均衡(NE)策略是不够的。另一方面，我们提出了一个新的假设——单边集中，并设计了一个在此假设下被证明是有效的悲观型算法。此外，我们还证明单边集中假设对于学习NE策略是必要的。此外，我们的算法可以在不做任何修改的情况下，在具有均匀浓度假设的数据集和基于回合的马尔可夫博弈两种广泛研究的设置下，获得极大极小样本复杂度。我们的工作为理解离线多主体强化学习迈出了重要的第一步。

成为VIP会员查看完整内容

46

相关内容

华盛顿大学（University of Washington）

华盛顿大学（University of Washington）

华盛顿大学（University of Washington）创建于1861年，坐落在美国最适宜居住和工作的城市西雅图，是美国西海岸最古老的大学，是一所世界顶尖的著名大学，长期保持世界大学财政支出和研究经费前三位。华盛顿大学拥有世界最顶尖的教师队伍，拥有29,804名教职员工，包括5803名教师，师生比例为 1：7.3 ，其中众多教授为所在学术领域的世界领导者。

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

70+阅读 · 2022年8月29日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

148+阅读 · 2022年7月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

118+阅读 · 2022年5月7日

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

专知会员服务

17+阅读 · 2022年4月6日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

42+阅读 · 2021年1月11日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

专知会员服务

16+阅读 · 2019年12月10日

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

机器之心

1+阅读 · 2022年10月28日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知

7+阅读 · 2022年8月16日

南大最新综述论文：基于模型的强化学习

南大最新综述论文：基于模型的强化学习

新智元

8+阅读 · 2022年8月1日

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知

4+阅读 · 2022年7月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

为何RL泛化这么难：UC伯克利博士从认知POMDP、隐式部分可观察解读

为何RL泛化这么难：UC伯克利博士从认知POMDP、隐式部分可观察解读

机器之心

1+阅读 · 2021年11月29日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

基于自编码器的表征学习：如何攻克半监督和无监督学习？

基于自编码器的表征学习：如何攻克半监督和无监督学习？

机器之心

12+阅读 · 2018年12月22日

具有暂态性能约束的切换系统的控制设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于在线机器学习的组合算法交易策略研究

国家自然科学基金

5+阅读 · 2013年12月31日

在线和离线折衷排序研究

国家自然科学基金

0+阅读 · 2012年12月31日

变结构学习自动机的自适应与协同优化算法

国家自然科学基金

0+阅读 · 2012年12月31日

不确定多智能体系统一致性的分布式自适应控制

国家自然科学基金

7+阅读 · 2012年12月31日

电子商务环境下多渠道供应链协调优化与合作策略研究

国家自然科学基金

0+阅读 · 2011年12月31日

大规模数据聚类的并行进化算法骨架研究

国家自然科学基金

0+阅读 · 2011年12月31日

Kruppel-like factor 4 (Klf4)在非洲爪蟾胚胎发育中的功能研究

国家自然科学基金

0+阅读 · 2009年12月31日

动态多智能体协同进化约束优化模型与算法研究

国家自然科学基金

4+阅读 · 2008年12月31日

Episodes Discovery Recommendation with Multi-Source Augmentations

Arxiv

0+阅读 · 2023年1月4日

Topological Duality for Distributive Lattices: Theory and Applications

Arxiv

0+阅读 · 2023年1月4日

Enriching the scholarly metadata commons with citation metadata and spatio-temporal metadata to support responsible research assessment and research discovery

Arxiv

0+阅读 · 2023年1月4日

Benchmarks and Algorithms for Offline Preference-Based Reward Learning

Arxiv

0+阅读 · 2023年1月3日

Attribute Inference Attacks in Online Multiplayer Video Games: a Case Study on Dota2

Arxiv

0+阅读 · 2023年1月2日

Reversible Attack based on Local Visual Adversarial Perturbation

Arxiv

0+阅读 · 2023年1月2日

On the Challenges of using Reinforcement Learning in Precision Drug Dosing: Delay and Prolongedness of Action Effects

Arxiv

0+阅读 · 2023年1月2日

An Entropy-Based Model for Hierarchical Learning

Arxiv

0+阅读 · 2022年12月30日

Improving generalization in reinforcement learning through forked agents

Arxiv

0+阅读 · 2022年12月29日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

相关主题

华盛顿大学（University of Washington）

相关VIP内容

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

190页pdf伯克利博士论文《自适应持续的具身智能体》，系统全面阐述机器人技术

专知会员服务

70+阅读 · 2022年8月29日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

148+阅读 · 2022年7月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

118+阅读 · 2022年5月7日

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

德国亥姆霍兹信息安全中心（CISPA）最新论文《多智能体系统中的超属性逻辑》，42页pdf

专知会员服务

17+阅读 · 2022年4月6日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

42+阅读 · 2021年1月11日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

专知会员服务

16+阅读 · 2019年12月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

机器之心

1+阅读 · 2022年10月28日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知

7+阅读 · 2022年8月16日

南大最新综述论文：基于模型的强化学习

南大最新综述论文：基于模型的强化学习

新智元

8+阅读 · 2022年8月1日

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

DeepMind最新114页报告《多智能体强化学习中的新兴易货贸易行为》

专知

4+阅读 · 2022年7月16日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

为何RL泛化这么难：UC伯克利博士从认知POMDP、隐式部分可观察解读

为何RL泛化这么难：UC伯克利博士从认知POMDP、隐式部分可观察解读

机器之心

1+阅读 · 2021年11月29日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

基于自编码器的表征学习：如何攻克半监督和无监督学习？

基于自编码器的表征学习：如何攻克半监督和无监督学习？

机器之心

12+阅读 · 2018年12月22日

相关基金

具有暂态性能约束的切换系统的控制设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于在线机器学习的组合算法交易策略研究

国家自然科学基金

5+阅读 · 2013年12月31日

在线和离线折衷排序研究

国家自然科学基金

0+阅读 · 2012年12月31日

变结构学习自动机的自适应与协同优化算法

国家自然科学基金

0+阅读 · 2012年12月31日

不确定多智能体系统一致性的分布式自适应控制

国家自然科学基金

7+阅读 · 2012年12月31日

电子商务环境下多渠道供应链协调优化与合作策略研究

国家自然科学基金

0+阅读 · 2011年12月31日

大规模数据聚类的并行进化算法骨架研究

国家自然科学基金

0+阅读 · 2011年12月31日

Kruppel-like factor 4 (Klf4)在非洲爪蟾胚胎发育中的功能研究

国家自然科学基金

0+阅读 · 2009年12月31日

动态多智能体协同进化约束优化模型与算法研究

国家自然科学基金

4+阅读 · 2008年12月31日

相关论文

Episodes Discovery Recommendation with Multi-Source Augmentations

Arxiv

0+阅读 · 2023年1月4日

Topological Duality for Distributive Lattices: Theory and Applications

Arxiv

0+阅读 · 2023年1月4日

Enriching the scholarly metadata commons with citation metadata and spatio-temporal metadata to support responsible research assessment and research discovery

Arxiv

0+阅读 · 2023年1月4日

Benchmarks and Algorithms for Offline Preference-Based Reward Learning

Arxiv

0+阅读 · 2023年1月3日

Attribute Inference Attacks in Online Multiplayer Video Games: a Case Study on Dota2

Arxiv

0+阅读 · 2023年1月2日

Reversible Attack based on Local Visual Adversarial Perturbation

Arxiv

0+阅读 · 2023年1月2日

On the Challenges of using Reinforcement Learning in Precision Drug Dosing: Delay and Prolongedness of Action Effects

Arxiv

0+阅读 · 2023年1月2日

An Entropy-Based Model for Hierarchical Learning

Arxiv

0+阅读 · 2022年12月30日

Improving generalization in reinforcement learning through forked agents

Arxiv

0+阅读 · 2022年12月29日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员