It is a long-standing question to discover causal relations among a set of variables in many empirical sciences. Recently, Reinforcement Learning (RL) has achieved promising results in causal discovery from observational data. However, searching the space of directed graphs and enforcing acyclicity by implicit penalties tend to be inefficient and restrict the existing RL-based method to small scale problems. In this work, we propose a novel RL-based approach for causal discovery, by incorporating RL into the ordering-based paradigm. Specifically, we formulate the ordering search problem as a multi-step Markov decision process, implement the ordering generating process with an encoder-decoder architecture, and finally use RL to optimize the proposed model based on the reward mechanisms designed for~each ordering. A generated ordering would then be processed using variable selection to obtain the final causal graph. We analyze the consistency and computational complexity of the proposed method, and empirically show that a pretrained model can be exploited to accelerate training. Experimental results on both synthetic and real data sets shows that the proposed method achieves a much improved performance over existing RL-based method.


翻译:在许多实证科学中,发现一系列变数之间的因果关系是一个长期存在的问题。最近,加强学习(RL)在观测数据的因果发现方面取得了令人乐观的结果。然而,通过隐性惩罚搜索定向图表的空间和强制实施循环方法往往效率低下,并将现有的基于RL的方法局限于小规模问题。在这项工作中,我们提出一个新的基于RL的因果发现方法,将RL纳入基于命令的模式。具体地说,我们把定购搜索问题作为一个多步骤的Markov决策程序,用编码脱coder结构实施定购生成程序,最后利用RL优化以设计给~each订购的奖励机制为基础的拟议模式。随后,将利用变量选择处理生成的定购,以获得最终因果图表。我们分析了拟议方法的一致性和计算复杂性,从经验上表明,可以利用预先训练的模型来加速培训。合成和真实数据集的实验结果显示,拟议的方法比现有的基于RL的方法取得了大大改进的业绩。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
36+阅读 · 2020年2月27日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
14+阅读 · 2020年12月17日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Arxiv
6+阅读 · 2021年6月24日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
14+阅读 · 2020年12月17日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
13+阅读 · 2019年1月26日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月5日
Top
微信扫码咨询专知VIP会员