EMNLP-IJCNLP 2019共收到有效投稿2877篇,录用684篇,录用率为23.8%。其接收的论文覆盖了对话交互系统、信息抽取、信息检索和文档分析、词法语义、语言学理论、认知建模和心理语言学、用于NLP的机器学习、机器翻译与多语言、问答、句子级语义学、情感分析和论点挖掘、文本挖掘和NLP应用、文本推理等自然语言处理领域众多研究方向。
哈尔滨工业大学社会计算与信息检索研究中心有七篇长文和一篇短文被录用。下面是论文列表及介绍:
题目:Cross-Lingual Machine Reading Comprehension
作者:崔一鸣,车万翔,刘挺,秦兵,王士进,胡国平
简介:虽然机器阅读理解研究得到了飞速发展,多数工作面向的是英文数据,而忽略了机器阅读理解在其他语言上的表现,其根本原因在于大规模训练数据的缺失。在本文中,我们提出跨语言机器阅读理解方法(Cross-Lingual Machine Reading Comprehension,CLMRC)来解决非英文下的机器阅读理解。首先我们给出了若干传统方法来实现跨语言机器阅读理解,其中包括一些zero-shot方法。紧接着我们创新地提出了Dual BERT模型,将<篇章,问题>在双语环境中建模,同时利用富资源语言来帮助低资源语言下的机器阅读理解。我们在两个中文机器阅读理解数据集上验证得知该方法能够显著提升低资源下的机器阅读理解效果,并且获得了state-of-the-art,为未来低资源下的机器阅读理解提供了一种解决方案。
题目:A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding
作者:覃立波,车万翔,李扬名,文灏洋,刘挺
简介:意图识别和槽填充是构建口语理解(SLU)的两个主要任务。 这两项任务紧密相关,并且槽填充往往在很大程度上依赖于意图识别结果。在本文中,我们提出了一个新的SLU框架,以更好地结合意图信息,进一步指导插槽填充。在我们的框架中,我们采用Stack-Propagation的联合模型,它可以直接使用意图信息作为槽填充的输入,从而捕获意图语义知识。此外,为了进一步减轻错误传播,我们对Stack-Propagation框架执行token-level的意图检测。在两个公开数据集上的实验表明,我们的模型达到了最高的性能。最后我们在框架中使用BERT,进一步提高我们整个模型的性能。
题目:Entity-Consistent End-to-end Task-Oriented Dialogue System with KB Retriever
作者:覃立波,刘一佳,车万翔,文灏洋,李扬名,刘挺
简介:在端到端任务对话系统中,查询知识库(KB)一直是一个挑战。先前的序列到序列(Seq2Seq)对话生成相关工作将KB查询视为对整个KB的关注,而不能保证生成的实体彼此一致。在本文中,我们提出了一个新的框架,它通过两个步骤查询KB,以提高生成实体的一致性。在第一步中,受到观察通常可以由单个KB行支持回复实体的启发,我们引入了KB检索模块,该模块在给定对话历史的情况下显式返回最相关的KB行。检索结果进一步用于过滤Seq2Seq响应生成模型中的不相关实体,以提高输出实体之间的一致性。在第二步中,我们进一步执行注意机制来得到最相关的KB列。我们提出了两种方法,使训练在没有标记检索数据的情况下可行,包括远程监督和Gumbel-Softmax技术。我们在两个公开的任务型对话数据集进行实验,实验结果超越了基线系统并且产生了实体一致的回复。
题目:Modeling Event Background for If-Then Commonsense Reasoning Using Context-aware Variational Autoencoder
作者:杜理,丁效,刘挺,李忠阳
简介:理解事件以及事件相关常识对各类NLP任务具有重要意义。给定某一事件,人类能够轻易推断出事件的意图、事件的效应等一系列属性。但是这对于目前的NLP系统而言仍是一个具有挑战的任务。针对这一点,近期研究者提出了Event2Mind和Atomic两个事件If-Then类型常识推理(例如,给定事件,要求生成事件意图、效应等)数据集,以及一个基于RNN的Encoder-Decoder基线方法。然而,基于RNN的Encoder-Decoder模型在解决这类问题时仍然存在两个显著弱点:其一,事件的意图是多样的,基于RNN的Encoder-Decoder往往倾向于给出给出某些泛泛的回答;其二,事件If-Then类型推理是一个常识推理问题,引入事件相关常识知识将有助于模型更好理解事件并生成更合理推断。针对这两点,我们提出了一个上下文敏感的变分自编码器(Context-aware Variational Autoencoder, CWVAE)和一个两阶段训练过程。基于变分自编码器的模型已被广泛应用于提升模型生成的多样性。相比于传统变分自编码器,CWVAE引入了一个额外的上下文敏感的隐变量。从而,在预训练阶段,模型能够从一个基于故事语料构建的辅助数据集上学习事件背景知识,进一步在微调阶段,使模型适应于标注数据集的各类推断目标(如事件意图、效应等)。在Event2Mind和Atomic两个数据集上的结果显示,CWVAE相对基线方法在生成的多样性和准确性上均有提升。
题目:Event Representation Learning Enhanced with External Commonsense Knowledge
作者:丁效,廖阔,刘挺,段俊文,李忠阳
简介:事件是对客观事实的表达,然而客观事件的发生会对人类的主观情感产生影响,不同的事件其背后的意图也有所不同。因此本文提出在进行事件表示学习的过程中融入人的情感及意图外部常识知识帮助更好的理解事件,在事件相似度、脚本事件预测等任务上取得了优于基线方法的结果。
题目:Multi-input Multi-output Sequence Labeling for Joint Extraction of Fact and Condition Tuples from Scientific Text
作者:姜天文,赵通,秦兵,刘挺,Nitesh V. Chawla,蒋朦
简介:条件在科学陈述中至关重要。如果没有精确指定的条件(例如,设备,环境),则科学陈述中的事实(例如,科学观察)的正确性可能无法被检验。 现有的面向科学领域的方法旨在从科学文本中提取事实元组,但忽略考虑条件。在这项工作中,我们提出了一个新的序列标注框架(以及一个新的标注模式),以从语句中同时提取事实和条件元组。该框架具有(1)用于生成一个或多个元组的多输出模块和(2)用于将多种类型的信号以序列形式输入到模型的多输入模块。在数据集BioNLP2013上相对提高了4.2个百分点,在用于元组提取的新的生物医药文本数据集上提高了6.2个百分点。
题目:Table-to-Text Generation with Effective Hierarchical Encoder on Three dimensions (Row, Column and Time)
作者:龚恒,冯骁骋,秦兵,刘挺
简介:虽然序列到序列(Seq2Seq)的模型在表格到文本(Table-to-text)的生成上取得了较好的效果,但是把表格视作一个序列或者三元组集合进行建模并不合适。因为1)表格由多行多列的数据组成,若把它视作一个序列或者三元组集合,则忽略了表格的结构信息。2)表格中存在时序信息,这意味着根据当前表格生成的描述可能受到历史数据的影响。为了解决上述问题,我们在建模表格中的数据的时候不仅考虑其中每个数据与和它同行的其他数据之间的关系,还分别通过建模该数据与和它同列的其他数据以及历史数据之间的关系,增强表格的表示。另外,我们还设计了一个融合门,根据数据从各个维度进行建模得到的表示的重要性,对这些表示进行融合。我们在ROTOWIRE数据集上进行了实验,自动评价结果和人工评价结果均表明我们的方法的有效性。
题目:Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing(短文)
作者:王宇轩,车万翔,郭江,刘一佳,刘挺
简介:大部分现有的跨语言上下文相关词向量都是从利用跨语言数据从头开始训练的语言模型中抽取出来的。这种方法不但需要大量计算资源和跨语言数据,而且训练时会花费大量时间。本文提出一种简单快捷的离线跨语言BERT投射方法,该方法能够利用预训练好的BERT模型生成跨语言上下文相关词向量。我们将这种词向量应用于零样本跨语言依存分析任务中,取得了远超使用传统跨语言上下文无关词向量方法的目前最好结果。我们还将这种词向量与XLM(一种使用跨语言数据重新训练BERT的方法)进行了对比,实验表明在与该方法取得相近结果的情况下,我们的方法所需的训练数据和计算资源远少于XLM,同时训练速度也更快。
本期责任编辑:崔一鸣
本期编辑:赖勇魁
“哈工大SCIR”公众号
主编:车万翔
副主编:张伟男,丁效
执行编辑:李家琦
责任编辑:张伟男,丁效,崔一鸣,李忠阳
编辑:赖勇魁,李照鹏,冯梓娴,王若珂,顾宇轩
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号:”哈工大SCIR” 。