开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复,反事实推理模型会自动推理:如果执行一个现实中未发生的替代策略会得到什么结果?这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下,使用反事实回复来训练模型将有助于探索潜在回复空间中的高奖励区域。在DailyDialog数据集上的实验结果表明,我们的方法显著优于HRED模型和传统的对抗训练方法。