赛尔推荐 | 第4期

会员服务 ·

赛尔推荐 | 第4期

2018 年 3 月 30 日 哈工大SCIR 哈工大SCIR

该栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了关于自动文摘技术、自动文摘评价、自然语言推理、阅读理解和文本风格迁移的五篇论文。

推荐组：CR

推荐人：朱泽圻（研究方向：自动文摘技术）

论文题目：A Semantic QA-Based Approach for Text Summarization Evaluation

作者：Ping Chen, Fei Wu, Tong Wang

出处：AAAI 2018

论文主要相关：自动文摘技术，自动文摘评价

简评：自动文摘的评价一般依赖于对比专家写作的文摘和机器的产生的文摘。这篇文章提出了一种不需要专家写作文摘的自动化评价指标。这篇文章将评价工作分为两个步骤：第一个步骤是基于模板，从原文中生成一系列的问题；第二个步骤是利用问答系统技术，分别借助原文和摘要的内容，尝试回答上一步骤所提出的问题，并通过比较回答情况衡量摘要性能。虽然这篇文章不需要专家写作的文摘，但是生成问题的模板仍需人工定义，只是对专家的依赖相对来说弱些，迁移能力强些。这篇文章让我联想起了此前的对偶学习系列文章，两者的共同点是试图摆脱机器学习对人工标注数据的依赖。

论文链接：

https://arxiv.org/abs/1704.06259

推荐组：LA

推荐人：刘洋（研究方向：语言分析）

论文题目：A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference

作者：Adina Williams, Nikita Nangia, Samuel R. Bowman

出处：NAACL 2018

论文主要相关：Natural Language Inference

简评：本文构造并详细介绍了Multi-Genre Natural Language Inference（MultiNLI）语料库。该数据集用于开发和评估机器学习模型的句子理解能力，即判断句子的蕴含、中立、矛盾关系。相比现有SNLI数据集，该数据集包含更多领域与更多数据（十种不同类型的书面和口语的英语数据），使研究者可以在此数据集上进行领域迁移等研究。

论文链接：

http://www.nyu.edu/projects/bowman/multinli/paper.pdf

数据集链接：

http://www.nyu.edu/projects/bowman/multinli/

推荐组：RC

推荐人：李家琦（研究方向：篇章结构）

论文1题目：Style Transfer from Non-Parallel Text by Cross-Alignment

论文1作者：Tianxiao Shen, Tao Lei, Regina Barzilay, Tommi Jaakkola

论文2题目：Style Transfer in Text: Exploration and Evaluation

论文2作者： Zhenxin Fu, Xiaoye Tan, Nanyun Peng, Dongyan Zhao, Rui Yan

这两篇论文的第一作者沈添笑和付振新分别来自麻省理工学院和北京大学。

出处：NIPS 2017，AAAI 2018

论文主要相关：文本风格迁移

简评：近年来，基于非平行数据的风格迁移在计算机视觉领域已被广泛研究，而这两篇文章均基于非平行语料对语言风格迁移进行了初探。语言风格迁移的核心是“Keep the content, vary the style”，即保持内容不变的情况下更改风格，其关键在于如何仅使用非平行语料将句子映射为风格独立（style-independent）的内容向量，并将该向量解码成内容相同风格不同的句子。在自动评价方面，两篇论文都预先训练了一个风格分类器对输出文本的语言风格进行自动判别。

论文一提出了交叉对齐的自动编码器（Cross-aligned auto-encoder）用于风格迁移，将迁移后的样例与另一风格的真实样例对齐，并应用于情感极性迁移、词替换密码的破译、恢复词序等三个任务。相比于传统变分自动编码器（VAE）和对齐自动编码器（Aligned AE），交叉对齐自动编码器实验效果获得了显著提升。文中最后还提出了一个开放性问题：什么时候在只给边缘分布的情况下可以恢复联合分布？

论文二对文本风格迁移进行了探索并提出了Multi-decoder和Style-Embedding模型，两种方法均学习到了去风格化的内容表示c，区别在于前者通过学习不同的解码器来解码不用的风格，而后者通过学习风格的嵌入表示s来进行解码。为了验证模型性能，作者构建了新闻标题—论文标题、褒义—贬义两个非平行语料，并提出迁移强度和内容保留程度等自动评价指标。

论文链接：

论文1：

http://papers.nips.cc/paper/7259-style-transfer-from-non-parallel-text-by-cross-alignment

论文2：

https://arxiv.org/abs/1711.06861

代码及数据：

论文1：

https://github.com/shentianxiao/language-style-transfer

论文2：

https://github.com/fuzhenxin/text_style_transfer

https://github.com/fuzhenxin/textstyletransferdata

Slides：