【EMNLP 2020 】基于反事实推理的开放域生成式对话

2020 年 11 月 5 日 专知

论文名称： Counterfactual Off-Policy Training for Neural Dialogue Generation

论文作者：朱庆福，张伟男，刘挺，王威廉

原创作者：朱庆福

论文链接：https://arxiv.org/abs/2004.14507

转载须标注出处：哈工大SCIR

1. 简介

开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复，反事实推理模型会自动推理：如果执行一个现实中未发生的替代策略会得到什么结果？这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下，使用反事实回复来训练模型将有助于探索潜在回复空间中的高奖励区域。在DailyDialog数据集上的实验结果表明，我们的方法显著优于HRED模型和传统的对抗训练方法。

2. 模型结构

2.1 结构因果模型（Structural Causal Model）

基于反事实推理[1]的生成式对话模型将被转化为结构因果模型（SCM）来探索回复空间中的高奖励区域。 SCM定义在一个由随机变量V构成的有向无环图（DAG）上同时包含随机噪声和确定性函数，使得，其中为在DAG中的父结点，也称为场景（Scenario），也称为因果机制（Causal Mechanism）[2,3]。图1（左）展示了一个SCM的例子，不同颜色表示不同的因果机制，每个随机变量由其父亲结点、一个噪声变量和一个确定性函数决定，如。相应地，生成式对话SCM定义在消息随机变量和回复随机变量上，使得。

图1 SCM（左）、干预（右）示意图

2.2 干预（Intervention）

本文中SCM上的干预操作对应于因果机制的替换。如图1中，将左侧橙色表示的替换为右侧紫色表示的即为一个干预操作，该操作将得到一个新的SCM，如图1（右）所示。在此基础上，如果将生成式对话模型的对话策略视为一种因果机制，那么生成式对话SCM中干预操作即为对话策略的替换。

2.3 反事实推理（Counterfactual Inference）

给定一个SCM并观测到随机变量，反事实推理的概念用于回答如下的问题：在SCM上执行一次干预操作而其他条件不变的情况下，随机变量将会得到什么结果？因此，将生成式对话模型转化为SCM即可利用反事实推理回答：观测到回复，假设执行观测到对话策略的替代策略同时保持其他条件不变，回复Y将会得到什么结果？我们将得到的回复称为反事实回复。一方面，反事实回复扩展了训练过程中的回复空间，解决了训练数据不足的问题。另一方面，反事实回复从真实回复中推理得出，比其他对抗训练方法中随机合成的回复质量更高。因此，使用反事实回复训练模型可以进一步提升模型的表现。具体地，反事实推理的步骤为：

a. 给定真实回复和其在生成式对话SCM下的生成过程：，其中为极大似然估计的用户对话策略，推理出真实回复的场景:

b. 将用户对话策略替换为模型学习的策略

c. 根据替换后得到的生成式对话SCM，，推理出在下执行策略的回复y

3. 实验结果

我们的方法可以应用于任何对抗训练下的生成式对话模型中，我们对比了HRED[4]、DPGAN[5]、REGS[6]和StepGAN[7]。表1展示了自动评价指标下的实验结果，在REGS和StepGAN上加入我们的方法后，Distinct-k和BLEU指标均有提升，证明反事实推理有助于提升回复的多样性和相关性。

表1 自动评价实验结果

人工评价方面，共有5位标注者在200条测试数据上独立进行了评价。每位标注者在两条回复中挑选出更优的一个，其中的两条回复分别由基线方法和我们的方法生成。结果如表2所示，我们的方法取得了更优的结果。

表2 人工评价实验结果

4. 实验分析

为了验证我们的方法有助于在训练过程中探索回复空间中的高奖励区域，我们对比了10,000条基线方法生成的回复（简称基线回复）和反事实回复的奖励。为了消除不同判别器和生成器之间的差距，基线回复和反事实回复均由相同的生成器生成，同时奖励由相同的判别器计算得出。分析结果如图2所示，（a）、（b）中横轴表示迭代次数，L、M、H分别表示低、中、高奖励区间，（c）、（d）中横轴表示迭代次数。图中反事实回复有更多样本分布在高奖励区间，同时反事实回复的平均奖励高于基线回复的平均奖励。由此证实，反事实推理有助于探索回复空间中的高奖励区域。

图2 反事实回复与基线回复的奖励分布、均值

5. 结论

我们提出了一种模型无关的基于反事实推理的生成式对话模型。该模型可以利用观测到的真实回复，自动推理执行替代策略下的潜在回复。推理得到的反事实回复优于传统对抗训练随机生成的回复，有助于探索回复空间中的高奖励区域。使用反事实回复进行训练，提升了生成回复的整体质量。

参考文献

[1] Judea Pearl and Dana Mackenzie. 2018. The book of why: the new science of cause and effect. Basic Books.

[2] Lars Buesing, Theophane Weber, Yori Zwols, Nicolas Heess, Sebastien Racaniere, Arthur Guez, and Jean Baptiste Lespiau. 2019. Woulda, coulda, shoulda: Counterfactually-guided policy search. In Proceedings of the Seventh International Conference on Learning Representations.

[3] Michael Oberst and David Sontag. 2019. Counterfactual off-policy evaluation with gumbel-max structural causal models. In International Conference on Machine Learning, pages 4881–4890.

[4] Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, and Joelle Pineau. 2016. Building end-to-end dialogue systems using generative hierarchical neural network models. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.

[5] Jingjing Xu, Xuancheng Ren, Junyang Lin, and Xu Sun. 2018. Diversity-promoting GAN: A cross-entropy based generative adversarial network for diversified text generation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3940–3949.

[6] Jiwei Li, Will Monroe, Tianlin Shi, Se ́bastien Jean, Alan Ritter, and Dan Jurafsky. 2017a. Adversarial learning for neural dialogue generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2157–2169.

[7] Yi-Lin Tuan and Hung-Yi Lee. 2019. Improving conditional sequence generative adversarial networks by stepwise evaluation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 27(4):788–798.

本期责任编辑：张伟男

本期编辑：钟蔚弘

『哈工大SCIR』公众号

主编：车万翔

副主编：张伟男，丁效

执行编辑：高建男

责任编辑：张伟男，丁效，崔一鸣，李忠阳

编辑：王若珂，钟蔚弘，彭湃，朱文轩，冯晨，杜佳琪，牟虹霖，张馨

专知便捷查看