Statistical hypothesis testing is a central problem in empirical inference. Observing data from a distribution $P^*$, one is interested in the hypothesis $P^* \in H_0$ and requires any test to control the probability of false rejections. In this work, we introduce statistical testing under distributional shifts. We are still interested in a target hypothesis $P^* \in H_0$, but observe data from a distribution $Q^*$ in an observational domain. We assume that $P^*$ is related to $Q^*$ through a known shift $\tau$ and formally introduce a framework for hypothesis testing in this setting. We propose a general testing procedure that first resamples from the $n$ observed data points to construct an auxiliary data set (mimicking properties of $P^*$) and then applies an existing test in the target domain. We prove that this procedure holds pointwise asymptotic level -- if the target test holds pointwise asymptotic level, the size of the resample is at most $o(\sqrt{n})$, and the resampling weights are well-behaved. We further show that if the map $\tau$ is unknown, it can, under mild conditions, be estimated from data, maintaining level guarantees. Testing under distributional shifts allows us to tackle a diverse set of problems. We argue that it may prove useful in reinforcement learning, we show how it reduces conditional to unconditional independence testing and we provide example applications in causal inference. Code is easy-to-use and will be available online.
翻译:在经验推断中, 统计假设测试是一个中心问题。 观察来自发行量 $P$ 的数据时, 一个人对 $P $ $ $ 美元 表示兴趣, 并需要任何测试来控制虚假拒绝的可能性。 在这项工作中, 我们引入了分布变换中的统计测试。 我们仍对一个目标假设 $ P $ $ $ 美元 表示兴趣, 但是在观察域中观察一个分配量 $ $ 美元 的数据。 我们假设 $ P $ 通过已知的无条件变换与$ $ 有关 美元, 并在此设置一个假设测试框架。 我们提议了一个一般测试程序, 首先从 $ 美元观察的数据点复制一个辅助数据集( 缩放 $ P $ $ ), 然后在目标域中应用现有的测试。 我们证明, 如果目标测试的值保持微调值的值, 则可以进一步测试 美元 。 我们的排序 。 在 以 度 度 度 度 度 度 的 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度