【EMNLP 2020 】基于反事实推理的开放域生成式对话

2020 年 11 月 5 日 专知

论文名称: Counterfactual Off-Policy Training for Neural Dialogue Generation
论文作者:朱庆福,张伟男,刘挺,王威廉
原创作者:朱庆福
论文链接:https://arxiv.org/abs/2004.14507
转载须标注出处:哈工大SCIR
1. 简介
开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复,反事实推理模型会自动推理:如果执行一个现实中未发生的替代策略会得到什么结果?这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下,使用反事实回复来训练模型将有助于探索潜在回复空间中的高奖励区域。在DailyDialog数据集上的实验结果表明,我们的方法显著优于HRED模型和传统的对抗训练方法。

2. 模型结构

2.1 结构因果模型(Structural Causal Model)

基于反事实推理[1]的生成式对话模型将被转化为结构因果模型(SCM)来探索回复空间中的高奖励区域。 SCM定义在一个由随机变量V构成的有向无环图(DAG)上同时包含随机噪声 和确定性函数 ,使得 ,其中 在DAG中的父结点, 也称为场景(Scenario), 也称为因果机制(Causal Mechanism)[2,3]。 图1(左)展示了一个SCM的例子,不同颜色表示不同的因果机制,每个随机变量由其父亲结点、一个噪声变量和一个确定性函数决定,如 相应地,生成式对话SCM定义在消息随机变量 和回复随机变量 上,使得

图1 SCM(左)、干预(右)示意图

2.2 干预(Intervention)

本文中SCM上的干预操作对应于因果机制的替换。如图1中,将左侧橙色表示的 替换为右侧紫色表示的 即为一个干预操作,该操作将得到一个新的SCM,如图1(右)所示。在此基础上,如果将生成式对话模型的对话策略视为一种因果机制,那么生成式对话SCM中干预操作即为对话策略的替换。

2.3 反事实推理(Counterfactual Inference)

给定一个SCM并观测到随机变量 ,反事实推理的概念用于回答如下的问题:在SCM上执行一次干预操作而其他条件不变的情况下,随机变量 将会得到什么结果?因此,将生成式对话模型转化为SCM即可利用反事实推理回答:观测到回复 ,假设执行观测到对话策略的替代策略同时保持其他条件不变,回复Y将会得到什么结果?我们将得到的回复称为反事实回复。一方面,反事实回复扩展了训练过程中的回复空间,解决了训练数据不足的问题。另一方面,反事实回复从真实回复中推理得出,比其他对抗训练方法中随机合成的回复质量更高。因此,使用反事实回复训练模型可以进一步提升模型的表现。具体地,反事实推理的步骤为:

a. 给定真实回复 和其在生成式对话SCM下的生成过程: ,其中 为极大似然估计的用户对话策略,推理出真实回复的场景: 

b. 将用户对话策略 替换为模型学习的策略

c. 根据替换后得到的生成式对话SCM, ,推理出在 下执行策略 的回复y

3. 实验结果

我们的方法可以应用于任何对抗训练下的生成式对话模型中,我们对比了HRED[4]、DPGAN[5]、REGS[6]和StepGAN[7]。表1展示了自动评价指标下的实验结果,在REGS和StepGAN上加入我们的方法后,Distinct-k和BLEU指标均有提升,证明反事实推理有助于提升回复的多样性和相关性。

表1 自动评价实验结果 

人工评价方面,共有5位标注者在200条测试数据上独立进行了评价。每位标注者在两条回复中挑选出更优的一个,其中的两条回复分别由基线方法和我们的方法生成。结果如表2所示,我们的方法取得了更优的结果。

表2 人工评价实验结果

4. 实验分析

为了验证我们的方法有助于在训练过程中探索回复空间中的高奖励区域,我们对比了10,000条基线方法生成的回复(简称基线回复)和反事实回复的奖励。为了消除不同判别器和生成器之间的差距,基线回复和反事实回复均由相同的生成器生成,同时奖励由相同的判别器计算得出。分析结果如图2所示,(a)、(b)中横轴表示迭代次数,L、M、H分别表示低、中、高奖励区间,(c)、(d)中横轴表示迭代次数。图中反事实回复有更多样本分布在高奖励区间,同时反事实回复的平均奖励高于基线回复的平均奖励。由此证实,反事实推理有助于探索回复空间中的高奖励区域。

图2 反事实回复与基线回复的奖励分布、均值

5. 结论

我们提出了一种模型无关的基于反事实推理的生成式对话模型。该模型可以利用观测到的真实回复,自动推理执行替代策略下的潜在回复。推理得到的反事实回复优于传统对抗训练随机生成的回复,有助于探索回复空间中的高奖励区域。使用反事实回复进行训练,提升了生成回复的整体质量。

参考文献

[1] Judea Pearl and Dana Mackenzie. 2018. The book of why: the new science of cause and effect. Basic Books.

[2] Lars Buesing, Theophane Weber, Yori Zwols, Nicolas Heess, Sebastien Racaniere, Arthur Guez, and Jean Baptiste Lespiau. 2019. Woulda, coulda, shoulda: Counterfactually-guided policy search. In Proceedings of the Seventh International Conference on Learning Representations.

[3] Michael Oberst and David Sontag. 2019. Counterfactual off-policy evaluation with gumbel-max structural causal models. In International Conference on Machine Learning, pages 4881–4890.

[4] Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, and Joelle Pineau. 2016. Building end-to-end dialogue systems using generative hierarchical neural network models. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.

[5] Jingjing Xu, Xuancheng Ren, Junyang Lin, and Xu Sun. 2018. Diversity-promoting GAN: A cross-entropy based generative adversarial network for diversified text generation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3940–3949.

[6] Jiwei Li, Will Monroe, Tianlin Shi, Se ́bastien Jean, Alan Ritter, and Dan Jurafsky. 2017a. Adversarial learning for neural dialogue generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2157–2169.

[7] Yi-Lin Tuan and Hung-Yi Lee. 2019. Improving conditional sequence generative adversarial networks by stepwise evaluation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 27(4):788–798.

本期责任编辑:张伟男
本期编辑:钟蔚弘

『哈工大SCIR』公众号
主编:车万翔
副主编:张伟男,丁效
执行编辑:高建男
责任编辑:张伟男,丁效,崔一鸣,李忠阳
编辑:王若珂,钟蔚弘,彭湃,朱文轩,冯晨,杜佳琪,牟虹霖,张馨

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CMCI” 可以获取《【EMNLP 2020 】基于反事实推理的开放域生成式对话》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
44+阅读 · 2021年1月23日
专知会员服务
73+阅读 · 2021年1月12日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
26+阅读 · 2020年11月23日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
43+阅读 · 2020年11月10日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
48+阅读 · 2020年9月28日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
74+阅读 · 2020年9月25日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
4+阅读 · 2020年4月6日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于图注意力的常识对话生成
开放知识图谱
8+阅读 · 2019年2月5日
Arxiv
0+阅读 · 2021年1月23日
Arxiv
5+阅读 · 2020年12月10日
VIP会员
相关VIP内容
【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
44+阅读 · 2021年1月23日
专知会员服务
73+阅读 · 2021年1月12日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
26+阅读 · 2020年11月23日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
43+阅读 · 2020年11月10日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
48+阅读 · 2020年9月28日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
74+阅读 · 2020年9月25日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
4+阅读 · 2020年4月6日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
相关资讯
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
论文浅尝 | 基于图注意力的常识对话生成
开放知识图谱
8+阅读 · 2019年2月5日
Top
微信扫码咨询专知VIP会员