【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习 - 专知

会员服务 ·

0

【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习

2022 年 11 月 10 日 专知

我们研究了怎样的数据集假设可以解决离线的二人零和马尔可夫博弈。与离线单智能体马尔可夫决策过程形成鲜明对比的是，我们证明了在离线二人零和马尔可夫博弈中，单一策略集中假设对于学习纳什均衡(NE)策略是不够的。另一方面，我们提出了一个新的假设——单边集中，并设计了一个在此假设下被证明是有效的悲观型算法。此外，我们还证明单边集中假设对于学习NE策略是必要的。此外，我们的算法可以在不做任何修改的情况下，在具有均匀浓度假设的数据集和基于回合的马尔可夫博弈两种广泛研究的设置下，获得极大极小样本复杂度。我们的工作为理解离线多主体强化学习迈出了重要的第一步。

https://simonsfoundation.s3.amazonaws.com/share/mps/symposia/2022/NDiTML/NDiTML2022-%20Du.pdf

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SORL” 就可以获取《【华盛顿大学Simon S. Du】离线单智能体和多智能体强化学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

1

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知

1+阅读 · 2022年12月1日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

基于供应链视角的环境治理：策略选择与协同机制

国家自然科学基金

0+阅读 · 2014年12月31日

耦合反应扩散神经网络的同步分析与控制

国家自然科学基金

0+阅读 · 2013年12月31日

Livin-Fibronectin分子与生物力学信号偶联介导前列腺癌“抵抗-逃离”转移机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

DUCG动态立体因果图的构建和推理方法及其实验验证研究

国家自然科学基金

0+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

Multilingual Detection of Check-Worthy Claims using World Languages and Adapter Fusion

Arxiv

0+阅读 · 2023年1月13日

A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning

Arxiv

30+阅读 · 2022年6月12日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

Arxiv

23+阅读 · 2019年12月12日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

多智能体强化学习

华盛顿大学（University of Washington）

相关VIP内容

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

UCL& UC Berkeley | 深度强化学习中的泛化研究综述

专知会员服务

61+阅读 · 2021年11月22日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知

1+阅读 · 2022年12月1日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

相关基金

基于供应链视角的环境治理：策略选择与协同机制

国家自然科学基金

0+阅读 · 2014年12月31日

耦合反应扩散神经网络的同步分析与控制

国家自然科学基金

0+阅读 · 2013年12月31日

Livin-Fibronectin分子与生物力学信号偶联介导前列腺癌“抵抗-逃离”转移机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

DUCG动态立体因果图的构建和推理方法及其实验验证研究

国家自然科学基金

0+阅读 · 2012年12月31日

非期望效用与纳什均衡- - 基于行为决策理论视角

国家自然科学基金

4+阅读 · 2012年12月31日

相关论文

Multilingual Detection of Check-Worthy Claims using World Languages and Adapter Fusion

Arxiv

0+阅读 · 2023年1月13日

A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning

Arxiv

30+阅读 · 2022年6月12日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

AliMe KBQA: Question Answering over Structured Knowledge for E-commerce Customer Service

Arxiv

23+阅读 · 2019年12月12日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员