哈工大SCIR 14篇长文被ACL 2021主会/Findings和IJCAI 2021录用

2021 年 5 月 7 日 哈工大SCIR

ACL-IJCNLP 2021 将于2021年8月1-6日在泰国曼谷举行。ACL年会是计算语言学和自然语言处理领域最重要的顶级国际会议，CCF A类会议，由计算语言学协会主办，每年举办一次。其接收的论文覆盖了对话交互系统、语义分析、摘要生成、信息抽取、问答系统、文本挖掘、机器翻译、语篇语用学、情感分析和意见挖掘、社会计算等自然语言处理领域众多研究方向。本届ACL 2021引入了新在线附属出版物“Findings of ACL”。

IJCAI 2021 , the 30th International Joint Conference on Artificial Intelligence将于2021年8月21日至26日通过以加拿大城市蒙特利尔为主题的VR线上举行。IJCAI是人工智能领域的顶级国际会议，是CCF A类会议，起于1969年每两年举办一次，自2016年起每年举办一次。IJCAI 2021收到有效投稿4204篇，最终录用587篇，录用率13.9%。

哈尔滨工业大学社会计算与信息检索研究中心有9篇长文被ACL 2021主会录用，4篇长文被Findings of ACL录用，1篇长文被IJCAI 2021录用。下面是论文列表及介绍：

题目：GL-GIN: Fast and Accurate Non-Autoregressive Model for Joint Multiple Intent Detection and Slot Filling

作者：覃立波，魏福煊，谢天宝，徐啸，车万翔，刘挺

类型：ACL 2021, Long Paper

多意图的口语语言理解任务要求模型对一句话识别多个意图，近些年受到广泛的研究。最近的基于自回归循环神经网络的联合模型在多意图SLU任务上取得了非常好的效果，然而自回归模型难以实现并行计算，解码速度较慢；且受限于单向从左到右的信息传播，不能充分利用上下文信息。在本篇工作中，我们提出了全新的基于非自回归机制的图神经网络模型（GL-GIN）来联合训练意图识别和槽填充两个任务。此模型主要由局部图注意力网络和全局图注意力网络两部分组成。局部注意力网络用来获取槽填充的上下文依赖关系。全局图注意力网络用来交互多个意图和所有槽位之间的信息。实验表明我们的模型不但取得了当前的最好结果，而且解码速度得到显著提高，比基线模型快11.5倍。

题目：Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization

作者：冯夏冲，冯骁骋，覃立波，秦兵，刘挺

类型：ACL 2021, Long Paper

现有的对话摘要系统往往通过引入辅助信息（例如：关键词和主题）来增强对话文本理解能力。然而，这些辅助信息要么使用对话无关的开放域工具获得，要么通过耗时耗力的人工标注获得。为了缓解上述问题，本文提出利用预训练对话回复生成模型DialoGPT作为一种无监督的对话标注器，借助其在预训练阶段编码的背景知识来获得辅助信息。本文将DialoGPT标注器用于AMI和SAMSum两个对话摘要数据集，标注三种类型的辅助信息：关键词，冗余句和主题分割。在标注之后的数据集上，我们使用基于预训练（BART）和非基于预训练（Pointer-Generator）的两类摘要模型进行实验。实验结果显示我们的标注方法可以帮助摘要模型获得提升，并且我们的方法在SAMSum数据集上取得了SOTA效果。

题目：EXCAR:Event Graph Knowledge Enhanced Explainable Causal Reasoning

作者：杜理，丁效，熊凯，刘挺，秦兵

类型：ACL 2021, Long Paper

此前的因果推理模型大多仅从带有标记的因果对中学习因果知识。然而在因果推理过程中，原因事件与结果事件间可能存在额外的中间事件，找到这些中间事件将有助于还原因果对背后的逻辑链条，从而增强因果推理的可解释性。为此，我们提出事理图谱增强的因果推理框架ExCAR，该框架从自动构建的大规模事理图谱中获取中间证据事件，并利用一个神经——逻辑结合的推理框架条件马尔可夫神经逻辑网络以预测因果标签。

题目：Learning Event Graph Knowledge for Abductive Reasoning

作者：杜理，丁效，刘挺，秦兵

类型：ACL 2021, Long Paper

溯因推理指为观测事件寻求最合理解释的推理任务。这一任务需要模型掌握充足的事件间关系知识，以推导出合理的解释事件。事理图谱中包含丰富的事件关系知识。然而当前的推理模型仍然缺乏事理图谱知识。针对这一问题，我们提出一个基于变分自编码器的语言模型ege-RoBERTa，该模型引入了一个额外的隐变量用以在预训练过程中捕获事理图谱知识，从而服务于溯因推理任务。

题目：BoB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data

作者：宋皓宇，王琰，张开颜，张伟男，刘挺

类型：ACL 2021, Long Paper

开放域对话系统需要在对话过程中尽可能的保持一致的人物角色特征。尽管在最近几年基于角色的对话生成已经取得了巨大的进步，但是在应用上这些方法仍然受限于人物角色对话数据的有限规模。在这项工作中，为了解决数据资源不足带来的挑战，我们提出了全新的BERT-over-BERT（BoB）模型将基于角色的对话生成分解为了两个子任务。具体来说，该模型由一个基于BERT的编码器和两个基于BERT的解码器组成，其中一个解码器用于对话回复生成，另一个则用于角色一致性的理解。特别地，我们利用大规模的无标注文本和非对话推理数据训练模型以缓解数据资源不足带来的影响。在不同低数据资源的场景下，客观指标和人工评价的结果均表明我们的模型在回复质量和人物角色一致性方面显著优于强基线模型。

题目：Discovering Dialog Structure Graph for Coherent Dialog Generation

作者：徐俊，雷泽阳，王海峰，牛正雨，吴华，车万翔

类型：ACL 2021, Long Paper

从真实人-人对话中学习离散的对话结构图，有助于人们理解对话规律，同时也可以为生成通顺对话提供背景知识。然而，在开放域对话中，对这一问题的研究较少。在本文中，我们从聊天语料库中无监督的发现离散对话结构，然后利用它来促进连贯的对话生成。为此，我们提出了一个无监督的模型（DVAE-GNN），来发现多层次的离散对话状态（包括对话和句子层）以及学习不同对话状态之间的转换关系。这些对话状态以及状态之间的转移关系组成了最终的对话结构图。进一步地，我们在基于增强学习的对话系统中利用对话结构图作为背景知识来进行对话管理。在两个基准语料库上的实验结果表明，DVAE-GNN能够发现有意义的对话结构图，且使用对话结构作为背景知识可以显著提高对话的多轮连贯性。

题目：Consistency Regularization for Cross-Lingual Fine-Tuning

作者：郑博，董力，黄绍晗，王文辉，迟泽闻，Saksham Singhal，车万翔，刘挺，宋夏，韦福如

类型：ACL 2021, Long Paper

微调跨语言预训练模型可以将特定任务的监督信息从一种语言迁移到其他语言。本文提出了xTune方法，通过一致性正则（Consistency Regularization）提升跨语言微调性能。我们使用样本一致性（Example Consistency）来惩罚模型对于不同数据增广方法下的样本预测分布的敏感程度。除此之外，我们还通过模型一致性（Model Consistency）约束两个不同数据增广版本的数据集上训练得到的模型。我们尝试了四种不同的数据增广策略来证明提出方法的有效性，分别是子词采样（Subword Sampling）、高斯噪声（Gaussian Noise）、语码转换（Code-Switch）以及机器翻译（Machine Translation）。我们在XTREME上进行了大量的实验，结果表明我们的方法显著的提升了多种任务上跨语言微调的结果，包括跨语言文本分类，问答，以及序列标注。

题目：LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

作者：徐阳，徐毅恒，吕腾超，崔磊，韦福如，Guoxin Wang，Yijuan Lu，Dinei Florencio，Cha Zhang，车万翔，张民，周礼栋

类型：ACL 2021, Long Paper

现实生活中种类繁多的文档（扫描或电子版的票据、报告、文件等）往往会包含布局、图像等丰富的视觉信息，单纯从文本入手难以充分挖掘其内容。本文提出的 LayoutLMv2 使用带有空间感知自注意力机制的多模态 Transformer 编码器网络，统一建模文本、图像、布局三种模态的信息，能够在大规模无标注文档数据上预训练通用文档理解模型。在预训练任务方面，除了现有的遮罩式视觉语言模型（Masked Visual-Language Modeling）外，LayoutLMv2 还引入了新的文本—图像对齐（Text-Image Alignment）以及文本—图像匹配（Text-Image Matching）任务，帮助模型从位置和语义层面对齐多模态信息。实验结果表明，经过预训练—微调的 LayoutLMv2 模型在对应不同类型任务的六个文档理解数据集上显著优于基线方法，达到世界领先水平。

题目：Neural Stylistic Response Generation with Disentangled Latent Variables

作者：朱庆福，张伟男，刘挺，William Yang Wang

类型：ACL 2021, Long Paper

风格化回复生成任务旨在按照特定的语言风格对用户的输入消息进行回复。然而，该任务面临着缺少大规模风格化平行数据的问题。为此，一些研究提出使用风格化自由文本为回复注入风格信息，但这类方法在提升回复风格化程度的同时不可避免地会降低回复的相关性。为解决该问题，我们提出了一种在隐变量空间分离回复风格信息和内容信息的方法，继而通过结合内容信息和期望的风格信息得到期望风格的回复。实验结果表明，我们的方法可以在保持回复相关性的同时，显著提升回复的风格化程度。

题目：Learning to Bridge Metric Spaces: Few-shot Joint Learning of Intent Detection and Slot Filling

作者：侯宇泰，赖永魁，陈成，车万翔，刘挺

类型：Findings of ACL 2021, Long Paper

在本文中，我们以对话语言理解为切入点，研究了Few-shot情景下的联合学习（Joint-Learning）问题。现有的小样本模型往往是通过少量样本学习单一任务。然而，对话语言的理解包含两个紧密相关的任务，即意图检测和时隙填充，并且常常受益于联合学习这两个任务。这联合学习场景需要全新的小样本学习技术：从仅有的几个示例中捕获任务关系，并联合地学习多个任务。为了实现这一目标，我们提出了一种基于相似度的Few-shot学习方案，称为“ Contrastive Prototype Merging Network（ConProm）”，该模型在数据丰富的领域上桥接intent和slot的度量空间，然后把桥接的度量空间适配到特定的小样本领域上。在两个公共数据集Snips和FewJoint上进行的实验表明，我们的模型在显著优于最强baseline。

题目：What did you refer to? Evaluating Co-references in Dialogue

作者：张伟男，张岳，唐汉霖，赵正宇，朱才海，刘挺

类型：Findings of ACL 2021, Long Paper

现有的基于神经网络的端到端对话系统很难准确解释一些语义的结构，例如省略、指代、共指等。因此，我们很难判断一个对话模型是真正地理解了对话，还是仅仅依靠流畅性指标作为拟合对象完成了对话的任务。为了解决这个问题，我们在这篇文章中使用问答的方式去衡量一个模型理解对话的能力，并且提出了一个新的基准数据集：DEQA。这个数据集包含了大规模的中文和英文的人类对话。相关实验表明，在对话理解这个任务上，那些代表性的对话模型都遇到了一定的挑战。

题目：A Closer Look into the Robustness of Neural Dependency Parsers with Better Adversarial Examples

作者：王宇轩，车万翔，Ivan Titov，Shay B. Cohen，雷志林，刘挺

类型：Findings of ACL 2021, Long Paper

现有的针对依存分析任务的对抗攻击基本都集中于攻击方法本身，而忽略了较低的对抗样本质量。为了解决该问题，我们提出了一种方法，使用更多生成方法和更严格的过滤器来生成高质量的对抗样本，并用自动和人工评价证明了其质量。我们使用该方法在不同的分析模型上进行试验并发现: (1) 在句中加入训练过程中未出现的词能有效提高攻击成功率，(2) 算法生成的对抗样本与分析器类型，输入词向量类型，甚至训练模型的随机种子都有较强的相关性。基于这些发现，我们使用对抗学习和模型融合方法有效提高了分析器的鲁棒性。

题目：A Text-Centered Shared-Private Framework via Cross-Modal Prediction for Multimodal Sentiment Analysis

作者：吴洋，林子杰，赵妍妍，秦兵，朱李楠

类型：Findings of ACL 2021, Long Pape

多模态情感分析中一个关键的问题是如何进行多模态特征融合。以往工作常常在特征融合过程中将不同模态视为同等重要而没有显式地建模不同模态所起到的作用。我们观察到文本模态在多模态情感分析中占据主要地位，图像与音频模态起到辅助的作用。具体来说，文本提供了主要的语义信息，图像/音频为文本模态提供了两类辅助的语义信息，共享信息与私有信息。相较于文本信息来说，共享信息提供了冗余信息使得模型更加鲁棒；私有信息提供了额外信息帮助模型预测的更加准确。我们利用了跨模态预测任务（Cross-Modal Prediction）挖掘这两类信息并提出了以文本为中心的共享私有框架（Text-Centered Shared-Private Framework）来对文本信息与这两类信息进行融合。在公开数据集上的实验结果证明了我们方法的有效性。

题目：Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization

作者：冯夏冲，冯骁骋，秦兵，耿昕伟

类型：IJCAI 2021, Long Paper

会议参与者的动态交互性和大规模训练数据的缺乏使得会议摘要成为一项具有挑战性的任务。现有的工作一方面将会议视为顺序句子序列进行建模，忽略了句子之间丰富的交互结构；另一方面，训练数据的缺乏限制了摘要模型的性能。在本文中，我们提出引入对话篇章结构来缓解上述问题。首先，我们提出DDAMS会议摘要模型来显式的建模句子之间的交互关系，其核心模块图编码器可以有效的以图交互的方式建模会议句子和多种篇章结构关系。除此以外，我们还设计了一种可以从现有会议摘要数据集中构建伪摘要数据集的DDADA数据增强策略。通过DDADA构建的伪摘要数据集是原数据集大小的20倍，可以有效的用于预训练DDAMS会议摘要模型。实验结果显示我们的方法可以在AMI和ICSI两个会议摘要数据集上取得SOTA效果。

本期责任编辑：赵森栋

本期编辑：牟虹霖

『哈工大SCIR』公众号

主编：张伟男

副主编：丁效，刘铭，冯骁骋，赵森栋

执行编辑：杜佳琪

编辑：钟蔚弘，彭湃，朱文轩，冯晨，牟虹霖，张馨，王若珂，高建男

长按下图即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号『哈工大SCIR』。