与传统的监督学习不同,在许多情况下,只有部分反馈是可用的。我们可能只观察所选择的行动的结果,而不是与其他选择相关的反事实的结果。这些设置包括各种各样的应用,包括定价、在线营销和精准医疗。一个关键的挑战是,观测数据受到系统中部署的历史策略的影响,从而产生偏倚的数据分布。我们将这一任务视为一个领域适应性问题,并提出了一种自训练算法,该算法通过伪标记将观察数据中有限的看不见的行动的分类值的结果来模拟随机试验,我们称之为反事实自训练(CST)。CST迭代地输入伪标签并重新训练模型。此外,我们还发现输入一致性损失可以进一步提高CST性能,这在最近的伪标记理论分析中得到了证明。我们证明了所提出的算法在合成和真实数据集的有效性。