**本文研究了因果表示学习问题,即从高维的低维观测中发现低维的高层次因果变量及其因果关系,以实现机器学习中的泛化和自适应。**考虑在监督学习中为泛化学习因果表示。由于虚假的相关性,预测模型往往无法泛化到与训练时使用的分布不同的环境。本文提出一个框架,在基本因果图的相当一般的假设下有理论保证,首先从观察中确定给定目标的直接原因,然后用这些原因来构建不变的预测器,这些预测器能够泛化到未见过的测试环境。

**其次,我们考虑在模仿和强化学习中学习因果表示的泛化。**其中一个基本的挑战是学习策略、表示或动态,这些策略、表示或动态不会建立在虚假的相关性之上,并且不会泛化到它们所训练的特定环境之外。我们从一个统一的观点来研究这些泛化问题。为此,我们提出了一个框架来解决它们,在温和的环境变化假设下,理论保证了可识别性和可泛化性。关键思想是,通过利用环境变量之间的结构关系(即,观察、状态、行动和奖励),我们首先构建一个忽略虚假特征的数据表示,然后在策略、表示和动态方面构建不变预测因子。我们从理论上证明,所得到的策略、表示和动态可以很好地泛化到未见的环境。

**最后,我们考虑了强化学习中适应的学习因果表示。**除了泛化之外,强化学习的另一个基本挑战是如何在只提供少量样本的情况下快速使策略适应新环境。通过利用环境变量的结构关系,我们构建了一个简约的图表示,它分别编码了用于策略适应的最小和充分的环境特定因素集和环境共享因素集的内容和位置。我们表明,这样的表示允许我们以一种只需要少量样本的有效方式使策略适应目标环境,而不需要进一步的策略优化。

成为VIP会员查看完整内容
53

相关内容

剑桥大学(英语:University of Cambridge;勋衔:Cantab)为一所座落于英国剑桥郡剑桥市的研究型大学。它是英语世界中历史第二悠久的大学,也是世界现存第四古老的大学。剑桥大学的起源为一群牛津大学的学者,因与牛津市民发生冲突而移居至剑桥。剑桥与牛津这两所在中世纪建立的英国大学,在校务运作、学术声望、社会地位等多方面都非常相似,经常合称为“牛剑”
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
69+阅读 · 2023年2月23日
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
87+阅读 · 2022年12月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
85+阅读 · 2022年7月11日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
相关论文
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
11+阅读 · 2018年4月25日
微信扫码咨询专知VIP会员