Suppose an online platform wants to compare a treatment and control policy, e.g., two different matching algorithms in a ridesharing system, or two different inventory management algorithms in an online retail site. Standard randomized controlled trials are typically not feasible, since the goal is to estimate policy performance on the entire system. Instead, the typical current practice involves dynamically alternating between the two policies for fixed lengths of time, and comparing the average performance of each over the intervals in which they were run as an estimate of the treatment effect. However, this approach suffers from *temporal interference*: one algorithm alters the state of the system as seen by the second algorithm, biasing estimates of the treatment effect. Further, the simple non-adaptive nature of such designs implies they are not sample efficient. We develop a benchmark theoretical model in which to study optimal experimental design for this setting. We view testing the two policies as the problem of estimating the steady state difference in reward between two unknown Markov chains (i.e., policies). We assume estimation of the steady state reward for each chain proceeds via nonparametric maximum likelihood, and search for consistent (i.e., asymptotically unbiased) experimental designs that are efficient (i.e., asymptotically minimum variance). Characterizing such designs is equivalent to a Markov decision problem with a minimum variance objective; such problems generally do not admit tractable solutions. Remarkably, in our setting, using a novel application of classical martingale analysis of Markov chains via Poisson's equation, we characterize efficient designs via a succinct convex optimization problem. We use this characterization to propose a consistent, efficient online experimental design that adaptively samples the two Markov chains.
翻译:假设一个在线平台想要比较一种治疗和控制政策, 比如, 骑车共享系统中的两种不同的匹配算法, 或者在线零售网站的两种不同的库存管理算法。 标准随机控制试验通常不可行, 因为标准随机控制试验的目的是要估计整个系统的政策性能。 相反, 典型的当前做法涉及两种政策在固定时间长度上动态地交替, 比较每个政策作为评估治疗效果的间隔期间的平均性能。 但是, 这种方法受到一种时尚干扰: 一种算法改变了骑车共享系统中的两种不同的匹配算法, 或在线零售管理法的两种不同的存货管理算法。 我们把两种政策作为估算两个未知的马克罗夫公司之间在报酬方面的稳定状态差异的问题来进行测试。 我们假设每个链通过非对等式最大可能性来改变系统的状况, 对治疗效果的偏差估计。 此外, 这种设计的简单非适应性性性性性性质, 并且用一种直观的实验性设计, 将这两种政策视为一个稳定的 最低的 。 我们认为, 我们的 最低的 标准性, 我们的, 的 最低的 最低性, 最低的 最低的 最低的 最低的 标准, 我们的, 我们的 的 的 最低的 的, 我们的 的 的 的 最低的 的 最低的 的 的 最低的 最低的 最低的 最低的 最低的 最低的 的 的 的 的 的 的 的 的 的 最低的 的 最低的 估计性 的 的 的 的 的 最低的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 最低的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 最低的 的 的 的 最低的 最低的 最低的 最低的