Learning to Recover
from Multi-Modality Errors
for Non-Autoregressive Neural Machine Translation
非自回归神经机器翻译(non-autoregressive neural machine translation)同时预测目标句子中的所有词,能够显著加速预测过程。但是,非自回归神经机器翻译忽略了目标句子中词与词的依赖信息,因而存在多峰问题(multimodality problem),即所生成的目标词可能是根据不同的可行翻译方式生成,该问题常表现为重复词和缺词。为了缓解该问题,我们提出一种半自回归模型,该模型将目标句子分成多个段,在进行预测时,同时生成这些段,而每个段则是逐词生成。通过动态控制每个段的长度和删除重复段,该模型能够从重复词和缺词错误中恢复。我们在三个常用的机器翻译数据集上进行了评估,实验结果表明,本方法在取得至少4倍加速的同时能维持与自回归模型可比的效果,为进一步缩小非自回归/半自回归模型与自回归模型的效果差异提供了一种有益的解决方法。
(本文来自 ACL 2020 收录论文)
A Novel Graph-based
Multi-modal Fusion Encoder
for Neural Machine Translation
多模态神经网络机器翻译的目标是将源语言和相应的图片翻译为目标语言,可以应用到多媒体新闻翻译等场景。现有的模型都没能充分地建模不同模态语义单元(词或视觉对象)之间细粒度的语义关联,而这种关联有潜力优化多模态表示的学习。为了解决这个问题,本文提出了一种基于图的多模态语义融合编码器。具体地,首先将输入的源语言句子和对应的图片表示为一个统一的多模态图结构,此图结构包含了多种多模态语义单元之间的关系。在此图结构的基础上,本文使用多层基于图的多模态语义融合层来学习图中节点的表示。最后通过注意力机制为解码器提供源端的上下文。在英德和英法多模态机器翻译数据集上均取得了较好的效果,表明了提出模型的优势。
(本文来自 ACL 2020 收录论文)
A Contextual Hierarchical Attention Network
with Adaptive Objective
for Dialogue State Tracking
在对话状态跟踪任务中,高效利用对话历史中的相关信息至关重要,而先前的研究对此建模尚有不足。我们提出了一种从对话历史中层次化地查询相关信息的新模型,该模型分别从词、对话轮次这两个级别建模槽位与对话历史之间的交互,并使用一个独立的上下文编码器对各轮次相关信息之间的关系进行编码。此外,我们发现槽位不均衡问题限制了对话状态跟踪任务的整体性能,于是在模型的基础上提出了一种自适应的训练目标用于缓解该问题,它能在训练过程中动态地评估各槽位的训练难度并自适应地调整各槽位的学习权重。我们的方法在两个大型对话数据集上(MultiWOZ 2.0、MultiWOZ 2.1)上取得了state-of-the-art的效果,大幅超过先前的模型,并具有良好的可伸缩性和通用性。
(本文来自 ACL 2020 收录论文)
Diversifying Dialogue Generation
with Non-Conversational Text
基于seq2seq的神经网络模型在开放领域对话生成的任务上经常会出现 low-diversity的问题,即生成的回复无趣且简单。因此,我们提出利用非对话的文本语料去提高对话模型的多样性。相比于传统的对话语料,非对话的文本语料不仅容易获得而且主题包罗万象,因此我们从论坛、书籍和谚语中搜集了大量的非对话语料,结合迭代的回译(back translation)方法将非对话语料融入到对话模型的语义空间内。在豆瓣和微博的数据集上,新模型在保持相关度的同时极大提高了生成回复的多样性。
(本文来自 ACL 2020 收录论文)
Neural Data-to-Text Generation
via Jointly Learning
the Segmentation and Correspondence
神经注意力机制模型(neural attention model)在数据生到文本(data2text)任务上已经几乎可以生成通顺的句子,但是会面临信息损失、重复和不真实的问题。因为神经网络的黑盒特性,从根本上规避这些问题非常困难。为了解决这个问题,我们提出显式地把文本分成几个片段,每个片段对应数据(data)的某个域(field)。分段和对应关系不需要事先标注,可以通过线性规划自动地在训练过程中学习出来。同时我们使用后验正则化方法(posterior regularization)去有效控制分段的粒度。在E2E和WebNLG两个数据集上,我们的模型表现都胜过了神经注意力机制模型。同时因为我们显式反映了文本的片段和对应关系,整个模型完全可解释可控制,在多样性、信息真实度、重复和完整度上也都表现更好。
Continual Relation Learning
via Episodic Memory Activation
and Reconsolidation
实体间的关系学习是信息抽取中的重要任务,随着数据的不断增多,实体间的新关系也在被不断定义出来,这就需要我们能够进行关系的持续学习。近来,基于情景记忆回放的方法被证明能够有效缓解持续学习中的灾难性遗忘问题,但也暴露出容易对记忆样本过拟合的弊端。对此,我们受大脑情景记忆再巩固机制的启发,采样记忆样本来构建关系原型,并在关系原型的基础上构建记忆的训练,使得模型能够缓解学习新关系时过度遗忘旧关系的问题。
(本文来自 ACL 2020 收录论文)
Unsupervised Paraphrasing
by Simulated Annealing
无监督复述是自然语言处理中的重要研究课题。我们提出了一种利用模拟退火实现无监督复述的新方法,我们将复述建模为一个离散优化问题,并提出了一个精心设计的目标函数,包括语义相似性、表达多样性和释义的语言流畅性等衡量指标。通过执行一系列的局部编辑,在整个句子空间中搜索满足该目标函数的句子。因为我们的方法是无监督的,不需要平行语料库进行训练,因此可以方便地应用于不同领域的复述生成任务。我们在各种基准数据集上(Quora、Wikianswers、MSCOCO和Twitter)评估了本方法,结果表明,与以往的无监督方法相比,我们的方法在自动评估和人工评估方面都具备明显的优越性。此外,我们无监督方法优于大多数现有的领域自适应监督模型。
(本文来自 ACL 2020 收录论文)
Internal and Contextual Attention Network
for Cold-start Multi-channel Matching
in Recommendation
工业级综合推荐系统一般由召回(matching)和排序(ranking)两个模块组成。召回模块负责快速从百万级数据中检索出百级别物品候选,排序模块负责准确对这些召回来的物品候选排序,得到最后的推荐结果。由于推荐物品来源多种多样,特征也不尽相同,同时也为了兼顾多样性,召回部分通常会使用多队列召回(multi-channel matching)策略。然而,在现实系统中,综合推荐系统经常会引入新的数据源,这部分冷启动的召回通道在行为稀疏时往往表现较差。为了解决这些问题,作者提出一种Internal and contextual attention network (ICAN)模型,通过加强多队列之间特征域(feature field)交互和环境信息,得到更好的(冷启动)召回效果。
(本文来自 IJCAI 2020 收录论文)
Deep Feedback Network for Recommendation
作者提出了一个Deep Feedback Network (DFN)模型,综合使用了用户的隐式正反馈(点击行为)、隐式负反馈(曝光但未点击的行为)以及显式负反馈(点击不感兴趣按钮行为)等信息。DFN模型使用了internal feedback interaction component抓住用户行为序列中的细粒度的行为级别的交互,然后通过external feedback interaction component,使用精确但稀少的隐式正反馈和显式负反馈作为监督,从噪音较多的隐式负反馈中进一步抽取用户的正负反馈信息。
(本文来自 IJCAI 2020 收录论文)