【AAAI2021最佳论文】多智能体学习中的探索 - 利用 - 专知VIP

会员服务 ·

3

多智能体学习 ·

2021 年 2 月 6 日

【AAAI2021最佳论文】多智能体学习中的探索 - 利用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

探索 - 利用（exploration-exploitation）是多智能体学习（MAL）中强大而实用的工具，但其效果远未得到理解。为了探索这个目标，这篇论文研究了 Q 学习的平滑模拟。首先，研究者认为其学习模型是学习「探索 - 利用」的最佳模型，并提供了强大的理论依据。具体而言，该研究证明了平滑的 Q 学习在任意博弈中对于成本模型有 bounded regret，该成本模型能够明确捕获博弈和探索成本之间的平衡，并且始终收敛至量化响应均衡（QRE）集，即有限理性下博弈的标准解概念，适用于具有异构学习智能体的加权潜在博弈。

该研究的主要任务转向衡量「探索」对集体系统性能的影响。研究者在低维 MAL 系统中表征 QRE 表面的几何形状，并将该研究的发现与突变（分歧）理论联系起来。具体而言，随着探索超参数随着时间的演化，系统会经历相变。在此过程中，给定探索参数的无穷小变化，均衡的数量和稳定性可能会发生剧烈变化。在此基础上，该研究提供了一种形式理论处理方法，即如何调整探索参数能够可验证地产生均衡选择，同时对系统性能带来积极和消极（以及可能无限）的影响。

https://www.zhuanzhi.ai/paper/58dfd45f8af99a926fb48199e1447e9a

成为VIP会员查看完整内容

36

相关内容

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

NeurIPS 2020最佳论文奖项出炉！GPT-3、伯克利等3篇论文摘得！

NeurIPS 2020最佳论文奖项出炉！GPT-3、伯克利等3篇论文摘得！

专知会员服务

11+阅读 · 2020年12月8日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

CSDN

4+阅读 · 2019年6月13日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

机器之心

5+阅读 · 2018年6月7日

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

人工智能学家

4+阅读 · 2017年12月2日

Random restrictions and PRGs for PTFs in Gaussian Space

Arxiv

0+阅读 · 2021年3月25日

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Arxiv

3+阅读 · 2019年7月8日

Deep Learning

Arxiv

6+阅读 · 2018年8月3日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Arxiv

6+阅读 · 2018年1月16日

VIP会员

相关主题

多智能体学习

相关VIP内容

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

NeurIPS 2020最佳论文奖项出炉！GPT-3、伯克利等3篇论文摘得！

NeurIPS 2020最佳论文奖项出炉！GPT-3、伯克利等3篇论文摘得！

专知会员服务

11+阅读 · 2020年12月8日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

CSDN

4+阅读 · 2019年6月13日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

机器之心

5+阅读 · 2018年6月7日

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

人工智能学家

4+阅读 · 2017年12月2日

相关论文

Random restrictions and PRGs for PTFs in Gaussian Space

Arxiv

0+阅读 · 2021年3月25日

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?

Arxiv

3+阅读 · 2019年7月8日

Deep Learning

Arxiv

6+阅读 · 2018年8月3日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Arxiv

6+阅读 · 2018年1月16日

微信扫码咨询专知VIP会员