【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答- 专知

会员服务 ·

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知出品

【导读】变分自动编码器（VAEs）的研究已经在问答系统中生成回答这个任务中卓有成效。然而，大多数VAE对话模型将潜在变量的近似后验分布假设成简单的分布，如标准正态分布。因此生成的回答时单模态的。本文提出了DialogWAE，一种建模了对话模型的条件Wasserstein自动编码器（WAE）。

Dialog-WAE用GAN训练潜在的分布，它通过使用神经网络生成上下文相关的随机“噪声”，从潜在变量的先验和后验分布中抽样，并最小化两个分布之间的Wasserstein距离。然后，使用高斯混合先验网络来丰富潜在空间。在广泛使用的数据集进行的实验表明，DialogWAE在产生更连贯，信息丰富和多样化的响应方面超越了最先进的方法。

DialogWAE: Multimodal Response Generation with Conditional Wasserstein Auto-Encoder

论文链接：https://arxiv.org/abs/1805.12352

动机

许多基于VAE的对话模型都用一个简单的先验分布，如高斯分布近似后验分布，这样会出现“后验崩溃（posterior collapse）”的问题，即在生成过程中忽略了隐变量。因此，生成回答的过程会被限制。而作者设计的模型为了解决这个问题，在生成后验分布时，采用了混合高斯分布，并使用对抗学习的方法训练模型。

问题定义

为对话中的k句话，每个表示中的每个词.为上下文，目标是生成最终的回复，要采样求得 ,就需要估计条件分布。

模型

模型的结构如上所示。

Utterance 编码器

将对话中的所有内容（包括生成目标x）编码成实值向量的格式。在图中表示为黄色的框，是一个RNN（GRU）网络。

Context编码器

将上下文信息（不包括生成目标x）编码成实值向量的格式。图上句子后面的0/1表示对话中双方的编号。在图中表示为紫色的框，也是一个RNN（GRU）网络，网络最后的输出即为上下文向量。

训练的过程

在图中表示为中间部分蓝色之路。Recognition Net（RecNET）是一个前馈网络，首先接受由Utterance编码器和Context编码器拼接而成的向量作为输入，输出噪声的分布:和.然后根据分布取样得到噪声. 生成器Q根据取样得到的噪声，由一个前馈网络生成隐变量Z。

预测的过程

在图中表示为中间部分粉红之路。Prior Network(PriorNet)是一个前馈网络，仅接受Context编码器的输出作为输入，输出服从的分布的参数。为了解决一般VAE的参数的问题，这里使用了混合高斯分布，参数为分别表示每个分量的比例，每个分量的均值和方差。在采样过程中，首先从k个分量中选择一个，然后再从对应的分量中进行采样。噪声采样完成之后，通过一个前馈网络生成隐变量.最终，网络通过decoder（最后粉色的RNN）生成回答，输入为z与c。由于采用了高斯混合函数，缓解了后验崩溃的问题，生成的回答具有多样性。