赛尔推荐 | 第20期

会员服务 ·

赛尔推荐 | 第20期

2018 年 5 月 30 日 哈工大SCIR

本栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了四篇关于自动文摘、问题生成、文本简化、实体关系抽取的论文。

推荐组：CR

推荐人：朱泽圻（研究方向：自动文摘）

论文题目：Distraction-Based Neural Networks for Document Summarization

作者：Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang

出处：IJCAI 2016

论文主要相关：自动文摘，注意力分散机制

简评：

注意力（attention）机制因为能够聚焦文档中与生成内容密切相关的部分，提升了生成时的针对性，在各种seq2seq模型中得到了广泛应用。但是在自动文摘任务中，既要能够体现重点内容，又要覆盖足够多的文章信息，而如果注意力机制持续关注某个局部区域，则可能影响文本摘要的性能。因此本文在基于注意力机制的seq2seq模型上增加了注意力分散机制（distraction）。注意力分散分为两个方面：1）在训练时，生成最后的内容向量（content vector）时通过引入历史内容向量（history content vector）的惩罚机制，生成更多样的内容向量，同时也在注意力权值上引入历史注意力权值惩罚，直接影响内容向量的生成；2）在解码阶段，通过在评分过程中引入KL散度等，对于多样性较高的候选项给予较高的分数，鼓励多样性。这一思路让我联想到了抽取式摘要生成中的最大边缘相关（Maximal Marginal Relevance）方法，在抽取文摘组成句时既重视重要性又重视多样性。

论文链接：

https://arxiv.org/abs/1610.08462

推荐组：LA

推荐人：陈三元（研究方向：人机对话）

论文题目：Learning to Ask Questions in Open-domain Conversational Systems with Typed Decoders

作者：Yansen Wang, Chenyi Liu, Minlie Huang, Liqiang Nie

出处：ACL 2018

论文主要相关：问题生成，对话系统

简评：

在大规模开放领域的对话系统中提出好的问题是一项非常重要的任务，但在此前还没有被触及。这一任务与传统问题生成任务很大的不同之处在于它不仅要求以多种形式提出问题，而且还要能够处理多样化的主题。作者通过观察发现一个好的问题是一些疑问词，主题词和普通词的自然组合体。其中，疑问词的多样性产生疑问句式的多样性，主题词处理对话中话题转换的关键信息，普通词使得生成的自然语句有正确的句法和语法。该文章设计了两种typed decoders：soft typed decoder，hard typed decoder。通过估计上述三种词类型的概率分布来调整最终的生成词的概率分布。实验结果显示typed decoders的性能优于state-of-the-art基线系统，并且可以有效地生成更多有意义的问题。

论文链接：

https://arxiv.org/pdf/1805.04871.pdf

数据链接：

http://coai.cs.tsinghua.edu.cn/hml/dataset/

源代码链接：

https://github.com/victorywys/Learning2Ask_TypedDecoder

推荐组：QA

推荐人：李威宇（研究方向：问答系统）

论文题目：Simple and Effective Text Simplification Using Semantic and Neural Methods

作者：Elior Sulem, Omri Abend, Ari Rappoport

出处：ACL 2018

论文主要相关：文本简化，复句分解

简评：

句子分解作为一个主要的文本简化操作，本文提出了一种基于自动语义解析器的简单高效的分解算法。本文采用Universal Cognitive Conceptual Annotation（UCCA）进行语义表示的标注，将文本表示为场景，再基于两条规则，分别应用于拆分并列的场景和详细阐述的情况（英语中的从句）。在拆分之后，文本可以进一步进行更精细的简化操作。神经机器翻译（NMT）可以有效地应用在该场景下。以往的工作中，神经机器翻译应用于文本简化方面的劣势在于它太过保守，无法对原文进行随意的修改。而基于语义解析的分解可以缓解这个问题。本文采用了人工评价与机器评价来验证所提出的方法，并且结果表明该方法优于现有的词汇和结构简化系统。除此之外，本文的句子分解采用了语义解析器的方法，避免了对专门语料的依赖。这种先分解再使用神经翻译网络微调的方式，更好地利用了神经网络，避免了其在难以改变语法结构方面的劣势。

论文链接：

http://www.cs.huji.ac.il/~eliors/papers/simplification_ucca.pdf

推荐组：RC

推荐人：姜天文（研究方向：信息抽取）

论文题目：Weakly-supervised Relation Extraction by Pattern-Enhanced Embedding Learning

作者：Meng Qu, Xiang Ren, Yu Zhang, Jiawei Han

出处：WWW 2018

论文主要相关：实体关系抽取

简评：

弱监督关系抽取指的是对于给定的特定领域利用少量的关系实例从无标注的文本中抽取大量满足该关系的实体对。相比于基于监督的关系抽取，其应用范围更广，更容易应用于实际任务。以往的关系抽取可以总结为两类：1）基于模版的关系抽取：由于关系表达方式的多样性，此类方法往往需要大量的关系实例进行学习，以获得可靠的模型，但仍然无法对未登录的表达方式进行匹配，而且会带来语义漂移问题；2）分布式方法：即对实体进行表示学习，并通过诸如神经网络等模型的学习训练，以获得关系分类器，但此类方法一般都需要大量的标注数据。本文提出一种弱监督的关系抽取框架，将以上两类方法结合在一起，优势互补并进行联合训练。其中基于模版的方法作为生成器，利用模版抽取候选关系实例，分布式方法作为判别器用来评估候选关系实例。本文提出的方法在知识库补全和篇章级关系抽取这两个任务上取得了显著的效果。

论文链接：

https://dl.acm.org/ft_gateway.cfm?id=3186024&ftid=1958653

往期链接：

点击文末“阅读原文”即可查看完整赛尔推荐目录

赛尔推荐 | 第19期

（注意力机制、阅读理解、LSTM、文本表示、Bag-of-Words）

赛尔推荐 | 第18期

（任务型对话系统评价、用户模拟框架、训练损失平滑、语言模型、阅读理解、文本风格迁移）

赛尔推荐 | 第17期

（情感分析、胶囊网络、Beam search、文本生成、生成式文档摘要、层次化注意力机制模型）

赛尔推荐 | 第16期

（机器翻译、自然语言生成、复述生成、语义分析）