This work is aiming to discuss and close some of the gaps in the literature on models using options (and more generally coagents). Briefly surveying the theory behind these models, it also aims to provide a unifying point of view on the many diverse examples that fall under a same category called coagent network. Motivated by the result of [10] on parameter sharing of options, we revisit the theory of (a)synchronous Coagent Network [8] by generalizing the result to the context where parameters are shared among the function approximators of coagents. The proof is more intuitive and uses the concept of execution paths in a coagent network. Theoretically, this informs us of some necessary modifications to the algorithms found in the literature which make them more mathematically accurate. It also allows us to introduce a new simple option framework, Feedforward Option Network, which outperforms the previous option models in time to convergence and stability in the famous nonstationary Four Rooms task. In addition, a stabilization effect is observed in hierarchical models which justify the unnecessity of the target network in training such models. Finally, we publish our code which allows us to be flexible in our experiments settings.


翻译:这项工作旨在讨论和弥合关于使用各种选项(以及更一般的共试剂)的模型的文献中的一些差距。 简要地调查这些模型背后的理论,还旨在就属于同一类别、称为共试网络的许多不同例子提供一个统一的观点。 受关于各种选项的参数共享的[10]结果的启发,我们重新审视了(a)同步共试剂网络[8]的理论,将结果概括到共同试剂的功能匹配者之间共享参数的背景上。 证据更直观,并在共同试剂网络中使用了执行路径的概念。理论上,这告诉我们对文献中发现的算法作了一些必要的修改,使其更加精确。 也使我们能够引入一个新的简单选择框架,即Feforward选择网络,它比以前的选择模型更符合著名的非静止四室任务中的趋同和稳定。 此外,在等级模型中观察到稳定效应,这证明在培训这种模型中目标网络的不相干之处是有道理的。 最后,我们公布我们的代码,使我们得以灵活地进行实验。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
39+阅读 · 2020年9月6日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月30日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
9+阅读 · 2020年2月15日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
39+阅读 · 2020年9月6日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年6月30日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
9+阅读 · 2020年2月15日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Top
微信扫码咨询专知VIP会员