**本文研究了因果表示学习问题,即从高维的低维观测中发现低维的高层次因果变量及其因果关系,以实现机器学习中的泛化和自适应。**考虑在监督学习中为泛化学习因果表示。由于虚假的相关性,预测模型往往无法泛化到与训练时使用的分布不同的环境。本文提出一个框架,在基本因果图的相当一般的假设下有理论保证,首先从观察中确定给定目标的直接原因,然后用这些原因来构建不变的预测器,这些预测器能够泛化到未见过的测试环境。
**其次,我们考虑在模仿和强化学习中学习因果表示的泛化。**其中一个基本的挑战是学习策略、表示或动态,这些策略、表示或动态不会建立在虚假的相关性之上,并且不会泛化到它们所训练的特定环境之外。我们从一个统一的观点来研究这些泛化问题。为此,我们提出了一个框架来解决它们,在温和的环境变化假设下,理论保证了可识别性和可泛化性。关键思想是,通过利用环境变量之间的结构关系(即,观察、状态、行动和奖励),我们首先构建一个忽略虚假特征的数据表示,然后在策略、表示和动态方面构建不变预测因子。我们从理论上证明,所得到的策略、表示和动态可以很好地泛化到未见的环境。
**最后,我们考虑了强化学习中适应的学习因果表示。**除了泛化之外,强化学习的另一个基本挑战是如何在只提供少量样本的情况下快速使策略适应新环境。通过利用环境变量的结构关系,我们构建了一个简约的图表示,它分别编码了用于策略适应的最小和充分的环境特定因素集和环境共享因素集的内容和位置。我们表明,这样的表示允许我们以一种只需要少量样本的有效方式使策略适应目标环境,而不需要进一步的策略优化。