A classical problem in causal inference is that of matching, where treatment units need to be matched to control units based on covariate information. In this work, we propose a method that computes high quality almost-exact matches for high-dimensional categorical datasets. This method, called FLAME (Fast Large-scale Almost Matching Exactly), learns a distance metric for matching using a hold-out training data set. In order to perform matching efficiently for large datasets, FLAME leverages techniques that are natural for query processing in the area of database management, and two implementations of FLAME are provided: the first uses SQL queries and the second uses bit-vector techniques. The algorithm starts by constructing matches of the highest quality (exact matches on all covariates), and successively eliminates variables in order to match exactly on as many variables as possible, while still maintaining interpretable high-quality matches and balance between treatment and control groups. We leverage these high quality matches to estimate conditional average treatment effects (CATEs). Our experiments show that FLAME scales to huge datasets with millions of observations where existing state-of-the-art methods fail, and that it achieves significantly better performance than other matching methods.
翻译:典型的因果关系推断问题是匹配问题, 处理单位需要与基于共变信息的控制单位匹配。 在这项工作中, 我们提出一种计算高质量几乎符合高维绝对数据集的方法。 这种方法叫做 FLAME( 最大规模几乎完全匹配 ), 学习使用暂停培训数据集进行匹配的距离指标 。 为了高效匹配大型数据集, FLAME 的杠杆技术是数据库管理领域查询处理的自然匹配技术, 并且提供了两种FLAME 的实施方法 : 首先使用 SQL 查询, 第二 使用 Bit- Vector 技术 。 算法从构建最高质量匹配( 在所有共变法中都匹配 ) 开始, 连续消除变量, 以便尽可能与众多变量匹配, 同时保持可解释的高质量匹配以及处理和控制组之间的平衡 。 我们利用这些高质量匹配来估算数据库管理领域的查询处理结果, 并且提供了两种应用 FLAME 工具 : 首次使用 SQLL 查询, 和 第二次使用 Bit- Victor 技术 。 。 算算法首先通过构建最高质量匹配( ) ( ) ( 在所有共变换方法), 无法 实现 等方法), 以远比其他方法更强的观测, 实现 的 和 和 以百万 以 的 以 等换换换换换换的 等 。