【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

**本文研究了因果表示学习问题，即从高维的低维观测中发现低维的高层次因果变量及其因果关系，以实现机器学习中的泛化和自适应。**考虑在监督学习中为泛化学习因果表示。由于虚假的相关性，预测模型往往无法泛化到与训练时使用的分布不同的环境。本文提出一个框架，在基本因果图的相当一般的假设下有理论保证，首先从观察中确定给定目标的直接原因，然后用这些原因来构建不变的预测器，这些预测器能够泛化到未见过的测试环境。

**其次，我们考虑在模仿和强化学习中学习因果表示的泛化。**其中一个基本的挑战是学习策略、表示或动态，这些策略、表示或动态不会建立在虚假的相关性之上，并且不会泛化到它们所训练的特定环境之外。我们从一个统一的观点来研究这些泛化问题。为此，我们提出了一个框架来解决它们，在温和的环境变化假设下，理论保证了可识别性和可泛化性。关键思想是，通过利用环境变量之间的结构关系(即，观察、状态、行动和奖励)，我们首先构建一个忽略虚假特征的数据表示，然后在策略、表示和动态方面构建不变预测因子。我们从理论上证明，所得到的策略、表示和动态可以很好地泛化到未见的环境。

**最后，我们考虑了强化学习中适应的学习因果表示。**除了泛化之外，强化学习的另一个基本挑战是如何在只提供少量样本的情况下快速使策略适应新环境。通过利用环境变量的结构关系，我们构建了一个简约的图表示，它分别编码了用于策略适应的最小和充分的环境特定因素集和环境共享因素集的内容和位置。我们表明，这样的表示允许我们以一种只需要少量样本的有效方式使策略适应目标环境，而不需要进一步的策略优化。

成为VIP会员查看完整内容

相关内容

剑桥大学

关注 9

剑桥大学（英语：University of Cambridge；勋衔：Cantab）为一所座落于英国剑桥郡剑桥市的研究型大学。它是英语世界中历史第二悠久的大学，也是世界现存第四古老的大学。剑桥大学的起源为一群牛津大学的学者，因与牛津市民发生冲突而移居至剑桥。剑桥与牛津这两所在中世纪建立的英国大学，在校务运作、学术声望、社会地位等多方面都非常相似，经常合称为“牛剑”

【华盛顿大学博士论文】课程学习:从人类的策略到学习动力学，304页pdf

专知会员服务

42+阅读 · 2023年3月6日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【剑桥大学博士论文】主动学习与序列决策研究进展，160页pdf

专知会员服务

77+阅读 · 2023年2月13日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日