We study the problem of determining the best intervention in a Causal Bayesian Network (CBN) specified only by its causal graph. We model this as a stochastic multi-armed bandit (MAB) problem with side-information, where the interventions correspond to the arms of the bandit instance. First, we propose a simple regret minimization algorithm that takes as input a semi-Markovian causal graph with atomic interventions and possibly unobservable variables, and achieves $\tilde{O}(\sqrt{M/T})$ expected simple regret, where $M$ is dependent on the input CBN and could be very small compared to the number of arms. We also show that this is almost optimal for CBNs described by causal graphs having an $n$-ary tree structure. Our simple regret minimization results, both upper and lower bound, subsume previous results in the literature, which assumed additional structural restrictions on the input causal graph. In particular, our results indicate that the simple regret guarantee of our proposed algorithm can only be improved by considering more nuanced structural restrictions on the causal graph. Next, we propose a cumulative regret minimization algorithm that takes as input a general causal graph with all observable nodes and atomic interventions and performs better than the optimal MAB algorithm that does not take causal side-information into account. We also experimentally compare both our algorithms with the best known algorithms in the literature. To the best of our knowledge, this work gives the first simple and cumulative regret minimization algorithms for CBNs with general causal graphs under atomic interventions and having unobserved confounders.


翻译:我们研究在Causal Bayesian网络(CBN)中确定最佳干预方法的问题,只是其因果图所指明的。我们用侧信息来模拟这个问题,因为干预方法与土匪的手臂相对应。首先,我们提出一个简单的遗憾最小化算法,将半马尔科瓦因果图和原子干预和可能无法观察的变量作为投入,并实现美元(sqrt{O})(sqrt{M/T})预期的简单遗憾,即$M$依赖于输入的CBN,与武器数量相比,其累积性可能非常小。我们还表明,对于带有美元树结构的因果图所描述的CBBNs几乎是最佳的。我们简单的遗憾最小化算算法,它假定对输入的因果性图表有额外的结构性限制。特别是,我们提议的算法的简单遗憾保证只能通过首先考虑对因果图的侧面结构限制来改进,而与武器数量相比可能非常小。我们还表明,对于C的累积性图表来说,这几乎都是最佳的因果算算法,我们最坏的。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
逆强化学习几篇论文笔记
CreateAMind
9+阅读 · 2018年12月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Parameterizing and Simulating from Causal Models
Arxiv
0+阅读 · 2021年9月8日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
3+阅读 · 2018年4月10日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
逆强化学习几篇论文笔记
CreateAMind
9+阅读 · 2018年12月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员