ICLR 2022 | 从几何视角来看无监督强化学习

2022 年 4 月 19 日 PaperWeekly

©作者 | 我是谁啊

文章主旨

本文主要针对一种无监督（不依赖 reward）的强化学习预训练方法——无监督技巧发现（unsupservised skill discovery）的算法最优性质进行了讨论。作者证明了通过最大化互信息（mutual information）方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在，作者证明了在某种特定的下游任务 adaption 方式下（在后续的章节中详细讲解），通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况（worst case）下的表现。

论文标题：

The Information Geometry of Unsupervised Reinforcement Learning

论文链接：

https://arxiv.org/pdf/2110.02719.pdf

符号定义

定义某 MDP 下依策略，折扣状态占有率（state occupancy）为，

其中，为依策略进行采样，时刻处于状态的概率。据此重新定义强化学习的优化目标：

其中这里使用了仅与 state 有关的奖励函数。

无监督的技巧学习

此前的无监督技巧学习试图学习策略，除了状态 s 以外，策略同时与额外的输入变量条件相关。其中 z 通过一个分布来进行生成（这个分布同样是训练得到的）。在此前的一些工作中，通过最大化与之间的互信息进行优化：

上式中需要同是对（对应参数）以及进行优化。作者对问题进行简化，将两者进行整合，定义：，据此定义，上式优化问题可以被表示为：

Theorem 4.1证明（本文的核心定理）

定理如下：

其中，

公式中代表初始化数据分布（即 pre-train 后得到的分布，初始化是相对于下游任务来说），为在下游任务上（对于奖励函数）进行 adaption（finetune）得到的 state 分布；下游任务上的最优 state 分布。

首先对 AdapationObjective 进行理解：

为的优化目标，即策略在下游任务上的 adaption 过程，其中第一项以策略在下游任务为优化目标，第二项为与初始化策略分布分布之间的 KL 散度，KL 散度越小，两者之间差异性越小，策略能够越容易的 general 到下游任务（作者称此项为 information cost）。可以看到与的唯一差别是：为下的最优 state 分布，仅仅以策略最优性作为优化目标，而的优化过程需要同时考虑策略最优性以及 adaption 过程的 information cost。

Proof：

假定下游任务以及初始化分布已经给定，首先针对进行优化：

将带入 AdaptionObjective 中，有，

因此，问题的原始优化目标可以被表示为：

对进行优化，

将进一步带入，得

根据 Lemma 6,5，在给定的情况下，有：

将优化变量由替换为，在给定的情况下（事实上根据作者的定义，，那么仅仅与环境转移有关）。

至此，Theorem 4.1得证。

Skill Learning的几何解释

5.1 哪些策略（以及策略对应的state分布）是可达的？

作者以状态空间为例，对问题进行可视化分析。状态的 state-occupancy 需要满足：

也就是所有可能的 state-occupancy 都分布在此超平面上。

Proposition 1. 给定一系列可行的 state marginals（state-occupancy 分布，即图中黄色点），那么这些可达的 state marginals 的所有凸组合一定也是可达的，这些可能的所有凸组合构成了整个可行空间（图中橘黄色多面体）。

该可达区域实际上构成了一个凸集。

5.2 哪些策略（以及对应的state分布）是最优的？

同样以状态空间为例，假定状态分布为，并且。作者将奖励函数可视化为三位空间中的某个向量，那么累计奖赏可以被表示为：

即累计奖赏可以被表示为 reward 函数与状态分布向量的内积。

Fact 1. 对于每个仅与状态有关（state-dependent）的奖励函数，对于策略可达区域内的所有策略，能够使在下的累计奖赏 G 最大的策略一定在可达区域多面体的顶点上。

proposition 2 可以由最大值原理（maximum principle）得到，这里不进行过多介绍。

Fact 2. 对于状态可达多面体的每一个顶点，存在一个特定的奖励函数，使得该顶点对应的策略为下的最优策略。

Definition 5.1：顶点发现问题（Vertex Discovery Problem）：给定某个受控 MDP 过程（没有 reward 的 MDP 过程），寻找一个最小策略集合，使得状态可达多面体的每个顶点至少有一个策略与之对应。

5.3 基于Mutual information的Skill learning学得的策略是如何在策略可达多面体内分布的？

回顾 Skill learning 的原始优化问题，即最大化互信息，

其中，为下的平均状态分布，

对于上述优化问题进行优化时，最大化互信息会驱使 skill learning 学得的策略的状态分布远离平均状态分布（因为最大化 KL 散度会放大两个不同分布之间的差异性）。因此，当 skill learning 达到最优时，对于距离平均分布的最远的策略赋予一个比较大的概率，而对于其余策略（与的距离小于最远距离的策略），则会赋予概率为 0。

作者在 Figure 3（下图）进行了举例分析，其中图中绿色点代表状态的平均分布，橙色的点代表算法学得的 skill，图中的虚线圆圈代表了与策略可达区域的最大边界线（可以理解为策略可达多面体的外切球）。我们以最左边的图进行分析，图中的策略可达多面体有 3 个节点分布最大边界上，也就是 skill learning 共学得了三个不同的 skill，其概率和为 1（0.28 + 0.28 + 0.44=1），因此，作者想表达的意思是，只有分布在最大边界上的策略才能被习得。

作者对此现象在 lemma 6.2 进行了公示化表述：

5.4 Skill learning最多能够习得多少个不同的skill？

为了回答这个问题，作者提出如下假设：

Assumption 1：假定中任意取出个节点构成的集合，都不关于 KL 散度共圆。也就是不存在某个使得集合中所有节点距离的距离相等。

存在于维空间中，共有个自由度（因为和为1的约束）。当不断习得 skill 时，需满足与的距离为，其中作为变量提供了一个额外的自由度。因此，最多添加个约束，便可以完全确定，继续增加额外的 skill 会让该问题变成 ill-defined。因此，最多同时习得个 skill。

送福利啦！

独家定制炼丹中/Fine-Tuning

超超超超超大鼠标垫

限量 200 份

扫码回复「鼠标垫」

立即免费参与领取

👇👇👇

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

下游任务

关注 0

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【牛津大学教授Michael Bronstein】从微分几何和代数拓扑的视角来重新探讨图神经网络

专知会员服务

51+阅读 · 2022年3月13日

【上海交大ICLR2022】从因果不变性视角探讨图神经网络的分布外泛化鲁棒性

专知会员服务

29+阅读 · 2022年3月12日

NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子

专知会员服务

16+阅读 · 2021年12月7日

【NeurIPS 2021】多视角对比图聚类

专知会员服务

36+阅读 · 2021年10月31日

【CMU博士论文】通过记忆的元强化学习

专知会员服务

57+阅读 · 2021年10月16日

近期必读的五篇 NeurIPS 2020【三维点云分析】相关论文和代码

专知会员服务

29+阅读 · 2020年12月29日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

ICLR'22| 如何提升任意GNN的表现能力？

图与推荐

0+阅读 · 2022年4月15日

【ICLR22】从因果不变性视角探讨图神经网络的分布外泛化鲁棒性

图与推荐

0+阅读 · 2022年3月17日

ICLR 2022 | 从因果不变性视角探讨图神经网络的分布外泛化鲁棒性

PaperWeekly

1+阅读 · 2022年3月9日

ICLR'22 | You're AllSet! 超图GNN的新视角！

图与推荐

3+阅读 · 2022年3月4日

ICLR'22上的47页“神仙论文” | 子图聚合图神经网络

图与推荐

0+阅读 · 2022年3月1日

Dropout视角下的MLM和MAE：一些新的启发

PaperWeekly

1+阅读 · 2021年12月6日

NLP的“第四范式”之Prompt Learning总结：44篇论文逐一梳理

PaperWeekly

2+阅读 · 2021年10月24日

【ICLR 2020】基于自回归流（Flow）的图生成模型

专知

14+阅读 · 2020年7月17日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

学习 | word2vec的前世今生

菜鸟的机器学习

14+阅读 · 2018年3月21日

非线性组合优化暑期学校暨学术前沿研讨会

国家自然科学基金

6+阅读 · 2017年6月30日

一个组合猜想及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向数据表示的深度稀疏保持学习

国家自然科学基金

7+阅读 · 2013年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

几何结构形变空间的几何拓扑

国家自然科学基金

0+阅读 · 2012年12月31日

顶点算子代数理论及李代数的表示

国家自然科学基金

1+阅读 · 2012年12月31日

对一般博弈均衡存在性的完整考察——基于递归转移连续性考察的新方法

国家自然科学基金

1+阅读 · 2012年12月31日

全局轨迹解析的通用框架和推理方法，以及在智能视频监控中的应用

国家自然科学基金

1+阅读 · 2011年12月31日

增广拉格朗日问题的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

积分几何与凸几何分析

国家自然科学基金

2+阅读 · 2009年12月31日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Adaptive Transfer Learning on Graph Neural Networks

Arxiv

14+阅读 · 2021年7月20日

Cross-Modal Discrete Representation Learning

Arxiv

18+阅读 · 2021年6月10日

Graph Learning: A Survey

Arxiv

58+阅读 · 2021年5月3日

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

Arxiv

23+阅读 · 2021年3月3日

Communicative Message Passing for Inductive Relation Reasoning

Arxiv

11+阅读 · 2020年12月16日

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

Meta-Transfer Learning for Zero-Shot Super-Resolution

Arxiv

43+阅读 · 2020年2月27日

Deep Learning for Learning Graph Representations

Arxiv

35+阅读 · 2020年1月2日

Conditional Random Field and Deep Feature Learning for Hyperspectral Image Segmentation

Arxiv

11+阅读 · 2017年12月27日

VIP会员