RL中的default policy 和 decision states 及 options(skill)是什么关系？

2019 年 8 月 15 日 CreateAMind

最近几篇论文都提出了学习一个默认的减轻认知负担的default policy；就像人默认情况直走即可，特殊情况才需要调整：有人，有车，有拐弯等；特殊情况就是decision states，这些情况下面需要重新决策切换行动的方式，要停下还是拐弯等；

default policy 和 decision states 及 options(skill)是什么关系？

default policy就是没有关键状态出现的时候的默认行为；离开default policy的时候就说出现了特殊情况，出现了decison states(sor bottleneck states 区别见后面)；然后执行的skill也发生了变化；skill 切换执行

decison states=决策状态类似关键状态

这几篇论文的关键公式分别如下：

1 deepmind kl default policy：

这里目标和动作的互信息要尽量小，动作基本和目标没什么关系，所以是default policy；下面的infobot也是目标和动作的互信息要尽量小；

动作尽量和目标没有什么关系，只有在出现目标或关键状态的时候动作和目标才有一定的互信息。

2 infobot：

上面都是基于目标监督学习的，下面一篇是无监督学习decision states

3 ds-vis：empowerment skill options类似第四篇dads

empowerment是要学习一个尽可能可靠的动作，执行动作尽量达到期望的结果，动作和结果states互信息要尽量大；

ds-vis是学习一个高层的动作抽象skill：语义级别的动作类似直行，跑，跳等语义动作，这里的约束是高层的skill动作和强化学习底层的action要尽量的互信息最小，论文解释是：选择skill不需要太多思考；作者的介绍没有看明白；而且可以进一步通过互信息高低确定决策状态；

技能skill和action的互信息小指的是skill是以action最方便的方式组合在一起？比如直行就是相同动作的持续repeat；拐弯是某一个角度的转弯动作的持续repeat，组成skill的action是 I(skill；action|s)两者互信息最小；

从互信息的熵的分解解读一下

I(skill；action)=H(action)-H(action|skill)这个不好解释 = H(skill)-H(skill|action) 即skill熵小，skill的多样性尽量少；但是基于action的skill尽量多元化，多样化；

可用的总的skill不多，但是尽量覆盖到尽可能多的情况；

论文里面的一个解释可以类比看看：

上面的意思是基于某个skill的结果是可控的，可以预测的，reliable reachable；即empowerment

dads的action states解读也可以类比看看：也是上面的意思，动作以可控可预测的方式到达很多状态；

上面skill和action的互信息最小和下面dads的第二项基本一样，下面dads的I(a;(st,z))

4 dads skill options；

4 dads connect empowerment；

上面熵分解类似的一个dads的公式：

这里对互信息的两种分解都做了解释：当前状态有很多动作可以选择，当前状态可以到达很多其他状态

基于前后状态中间的动作或skill是尽可能确定；基于状态和动作，结果尽可能确定；

这两个解释和EMI的两个互信息式子的EMI论文解释是对应的

decision states 区别 bottleneck states

default policy 和 decision states 及 options(skill)是什么关系你搞懂了吗？

欢迎加入我们！更多内容请访问公众号CreateAMind菜单。

更多理论公式可以参考原论文，这里附几篇论文的简单内容：

dads：

Dynamics-Aware Unsupervised Discovery of Skills 笔记 v2

infobot：

金句频频：用信息瓶颈的迁移学习和探索；关键状态

infobot paper：

paper：

INFORMATION ASYMMETRY IN KL-REGULARIZED RL

paper：

Unsupervised Discovery of Decision States for Transfer in Reinforcement Learning

欢迎加入我们，更多内容请访问公众号CreateAMind菜单。

登录查看更多

相关内容

互信息

关注 5

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性.

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

91+阅读 · 2020年7月4日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【剑桥大学】统计因果关系的决策理论基础，Decision-theoretic foundations for statistical causality

专知会员服务

48+阅读 · 2020年5月5日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

专知会员服务

46+阅读 · 2019年12月13日

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【图灵奖Yoshua Bengio】ICLR2020论文：一个元转移的目标学习解开因果机制（A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms）

专知会员服务

55+阅读 · 2019年9月26日

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

解耦强化学习的值函数学习

CreateAMind

6+阅读 · 2019年9月5日

今日面试题分享：熵、联合熵、条件熵、相对熵、互信息的定义

七月在线实验室

8+阅读 · 2019年2月28日

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

论强化学习的根本缺陷

AI科技评论

11+阅读 · 2018年7月24日

斯坦福学者冷思考：强化学习存在基础性缺陷

论智

7+阅读 · 2018年7月11日

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

论文浅尝 | Reinforcement Learning for Relation Classification

开放知识图谱

9+阅读 · 2017年12月10日

机器学习（13）之最大熵模型详解

机器学习算法与Python学习

7+阅读 · 2017年8月24日

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences

Arxiv

5+阅读 · 2018年7月23日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations

Arxiv

9+阅读 · 2018年4月22日

Improving Word Vector with Prior Knowledge in Semantic Dictionary

Arxiv

6+阅读 · 2018年1月27日

VIP会员