Neural agents trained in reinforcement learning settings can learn to communicate among themselves via discrete tokens, accomplishing as a team what agents would be unable to do alone. However, the current standard of using one-hot vectors as discrete communication tokens prevents agents from acquiring more desirable aspects of communication such as zero-shot understanding. Inspired by word embedding techniques from natural language processing, we propose neural agent architectures that enables them to communicate via discrete tokens derived from a learned, continuous space. We show in a decision theoretic framework that our technique optimizes communication over a wide range of scenarios, whereas one-hot tokens are only optimal under restrictive assumptions. In self-play experiments, we validate that our trained agents learn to cluster tokens in semantically-meaningful ways, allowing them communicate in noisy environments where other techniques fail. Lastly, we demonstrate both that agents using our method can effectively respond to novel human communication and that humans can understand unlabeled emergent agent communication, outperforming the use of one-hot communication.


翻译:在强化学习设置方面受过训练的神经代理商可以学习通过离散的象征物相互交流,作为一个团队完成什么是不能单独做到的。然而,目前使用单热矢量作为离散的通信象征物的标准使代理商无法获得更可取的通信方面,例如零射线理解。在自然语言处理过程中的文字嵌入技术的启发下,我们提议神经代理物结构,使他们能够通过从一个有知识的连续空间产生的离散象征物进行交流。我们在一个决定性框架中显示,我们的技术在广泛的情景中优化了通信,而单热象征物只是在限制性假设下是最佳的。在自我玩耍实验中,我们证实我们受过训练的代理商学会了以语义上有意义的方式组合标志物,允许他们在其他技术失败的吵闹环境中进行交流。最后,我们证明,使用我们的方法可以有效地应对人类新通信,人类能够理解无标签的新兴代理物的通信,而人类能够理解无标签的新兴代理物的通信,比使用单热通信好。

0
下载
关闭预览

相关内容

【上海交大】<操作系统> 2021课程,附课件
专知会员服务
41+阅读 · 2021年4月3日
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
75+阅读 · 2021年1月7日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2022年1月9日
Arxiv
3+阅读 · 2021年11月1日
Arxiv
3+阅读 · 2018年4月11日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员