2017年度最值得读的AI论文 | NLP篇 · 评选结果公布

2018 年 1 月 30 日 PaperWeekly 让你更懂AI的

历时九天，我们收到了近千份有效读者投票，2017 年度最值得读的 AI 论文评选也正式结束。

我们根据读者的投票情况，选出了自然语言处理和计算机视觉领域“2017 年最值得读的十大论文”。让我们一起来看看过去一整年，在 PaperWeekly 读者心中排名前十的 NLP 论文都有哪些？还有给我们留言的读者，在表达对这十篇论文的喜爱之情时都说了些什么？

此外，小编也在所有留言中选出了自己最钟意的五条，还在所有成功参与投票的读者中随机抽取了 13 位，他们都将获得 PaperWeekly 精心准备的新年礼物。

■ 论文 | Attention Is All You Need

■ 链接 | https://www.paperweekly.site/papers/224

■ 源码 | https://github.com/Kyubyong/transformer

大道至简，Google Brain 在本文中提出了一个新型的简化网络架构—Transformer，完全基于注意力机制，完全避免了循环和卷积，完全可并行。

本文可以说是 Google 继 Highway Network 等新型神经网络之后，在神经网络模块化的又一尝试。

扩展阅读：

■ 论文 | Reinforcement Learning for Relation Classification from Noisy Data

■ 链接 | https://www.paperweekly.site/papers/1260

■ 源码 | 暂无

清华大学发表在 AAAI 2018 上的工作，本文将强化学习应用于关系抽取任务中，取得了不错的效果。其主要贡献是将远程监督的信号转化为强化学习中的延迟奖励，从强化学习的视角提出解决问题的思路，并克服了联合训练 instance selector 和 relation classifier 两个模块的问题。

扩展阅读：

清华大学冯珺：基于强化学习的关系抽取和文本分类 | 实录·PhD Talk

■ 论文 | Convolutional Sequence to Sequence Learning

■ 链接 | https://www.paperweekly.site/papers/844

■ 源码 | https://github.com/facebookresearch/fairseq-py

本文提出了基于卷积神经网络（CNN）的 seq2seq 架构，和基于循环神经网络（RNN）的 seq2seq 相比，其更易于加速训练，在 GPU 上达到 9.8 倍加速，平均每个 CPU 核上也达到 17 倍加速。此外，本文工作在 WMT’14 English-German 和 WMT’14 English-French 两个数据集上，也取得相对更好的 BLUE Score。

ConvS2S 主要结构有：Position Embeddings（使编码器或解码器感知到位置变化）、Convolutional Block Structure（编码和解码上下文中的信息）、Multi-step Attention（每层解码器使用各自的注意力机制）和 Residual connections（使架构适应深度网络）。

扩展阅读：

论文解读：Convolutional Sequence to Sequence Learning

■ 论文 | Zero-Shot Relation Extraction via Reading Comprehension

■ 链接 | https://www.paperweekly.site/papers/289

■ 源码 | https://bitbucket.org/omerlevy/bidaf_no_answer

本文提出了基于阅读理解的关系抽取方法，并且成功抽取未标注的新关系。本文的精华之处在于对阅读理解问题的转化和数据集的生成。

填空式（slot-filling）关系抽取是在给定的关系 R、实体 e 和句子 s，在 s 中找到集合 A，使得其中的元素 a 满足 R(e, a)。在阅读理解中，问题 q 可表示为 R(e, ?)，回答问题等同于填空式关系抽取在 s 中找到答案，问题转化成：把 R(e,?) 翻译成问题 q，借助阅读理解抽取实体关系。

本文提出基于关系而非实体远程监督关系的众包标注方法，在可控的开销内，为此类问题构建一个非常大的数据集。

■ 论文 | IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models

■ 链接 | https://www.paperweekly.site/papers/200

■ 源码 | https://github.com/geek-ai/irgan

本文是生成对抗网络（GAN）在信息检索（IR）中的应用。信息检索中的两种常见模式：预测给出的文档相关性；给出文档对，判别他们之间的相关性。

本文转换问题角度，得到基于对抗网络的信息检索模型（IRGAN），主要由判别模型（挖掘标注与非标注的数据中的信息，用于引导生成模型拟合给定查询的结果在文档中的分布情况）和生成模型（根据查询生成高相关性的结果）组成。

本文从三个角度使用 GAN 对信息检索建模，即：pointwise（学习人类对文档的相关性判断），pairwise（找出最具有相关性的文档对），listwise（相关性排序）。

本文的模型架构可以应用于：网页搜索在线排序（sf: LambdaRank, LambdaMART, RankNet）、item 推荐系统（cf matrix factorisation）、问答系统（退化成 IR 的评估）。

扩展阅读：

■ 论文 | Neural Relation Extraction with Selective Attention over Instances

■ 链接 | https://www.paperweekly.site/papers/175

■ 源码 | https://github.com/thunlp/TensorFlow-NRE

本文提出使用卷积神经网络得到句子分布式表示，并结合句子级注意力机制动态减弱噪声干扰的远程监督关系抽取模型。

本文在得到句子分布式表示 x，巧妙地引入关系的向量表示 r，并使用 r 与 x 结合得到关系在每个句子上的注意力表示，最后经过 softmax 网络得到每种关系在句子集预测值，从而动态的去除了噪声对远程监督关系抽取的影响。

与现有神经网络模型相比，本文模型不仅可以综合利用所有文本数据，而且可以降低错误标注数据的影响，抽取准确率取得显著提高。

扩展阅读：

■ 论文 | Unsupervised Neural Machine Translation

■ 链接 | https://www.paperweekly.site/papers/1036

■ 源码 | 暂无

神经机器翻译在近几年取得了巨大进步，日渐趋于成熟，但其仍然严重依赖于稀缺的平行标注语料。当源语言或目标语言是小众语种时，此问题更加突出。

本文作者认为无监督神经机器翻译是大势所趋，完全舍弃了平行数据，提出了用完全无监督的方式训练神经机器翻译系统的新方法，该方法只需使用单语语料库。在统一的向量空间上进行“意译”，使用 denosing 和 backtranslation 来强化这一目标。

该系统在 WMT 2014 法语 - 英语和德语 - 英语翻译中分别取得了 15.56 和 10.21 的 BLEU 得分。

■ 论文 | Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

■ 链接 | https://www.paperweekly.site/papers/477

■ 源码 | https://github.com/zsctju/triplets-extraction

实体和关系的联合抽取问题作为信息抽取的关键任务，其实现方法可以简单分为两类：一类是串联抽取方法，另一类是联合抽取方法。

串联抽取方法将该问题分解为两个串联的子任务，即先采用实体识别模型抽取实体，再采用关系抽取模型得到实体对之间的关系，其优势是便于单独优化实体识别任务和关系抽取任务，但缺点是它们以获取三元组的中间产物（实体或者关系类型）为目标，而实体识别的结果会进一步影响关系抽取的结果，导致误差累积。

不同于串联抽取方法，联合抽取方法使用一个模型同时抽取实体及其关系，能够更好的整合实体及其关系之间的信息。但现有的联合抽取方法也存在诸多问题。

本文提出了一个新的联合抽取的模型框架来解决此类问题，并在公开数据集 NYT 上取得了很好的效果。

扩展阅读：

■ 论文 | A Structured Self-attentive Sentence Embedding

■ 链接 | https://www.paperweekly.site/papers/1081

■ 源码 | https://github.com/ExplorerFreda/Structured-Self-Attentive-Sentence-Embedding

本文发表于 ICLR 2017，作者提出一个新的自注意力模型，能提取句子中的重要部分进行 embedding，是一篇可以直接看公式理解作者思路的论文。

本文最大的亮点在于提出了自注意力机制，无需外部信息即可对自身进行 attention。此外，本文还提出用二维矩阵表示句子，矩阵的不同行表示句子不同层面的信息，使句子表达信息更丰富，解决了句子被压缩成一维向量时的信息损失问题。

■ 论文 | Dialogue Learning With Human-In-The-Loop

■ 链接 | https://www.paperweekly.site/papers/1436

■ 源码 | https://github.com/facebook/MemNN/tree/master/HITL

一般的对话机器人训练着重于在固定数据集上训练，本文使用强化学习基于在线反馈训练对话模型，在合成语境中对模型各方面性能进行测试，使用 Mechanical Turk 验证模型在真实环境中的表现，成功证明了使用固定数据集初始化模型后通在线学习改进模型的可行性。

在模型中，策略（Policy）使用 MemN2N（End-to-End Memory Network）实现，对话历史对应模型状态（State），问题的答案对应模型的动作空间（Action），回答的正误对应反馈（Reward），模型使用 batch size 控制模型参数更新频率以适用不同的学习模式。试验了 RBI (Reward-based Imitation)，Reinforce，FP (Forward Prediction) 等学习方法在模型中的表现。

读者福利名单

读者留言精选

@silver：投了三篇 paper，但是看见要求说最喜欢的论文的原因，最喜欢的是 IRGAN，上交和伦敦大学的那篇，对于 GAN 的应用让我耳目一新，尤其是在推荐系统上的应用，是我以前从未想过的，为了深入理解这篇 paper，还读了他们之前的工作，在 AAAI2017 上的 SeqGAN，一个完整连贯的工作体系，对于离散型数据在 GAN 的应用，以及优化设计上提供了思路，对于强化学习的应用也是让我获益匪浅，也在这个工作领域给我带来了很多新思路，非常感谢，也非常喜欢。

@朱昊：Selective Attention 那篇现在已经成为了做 Distant Supervision 的 Relation Extraction 必须比较的 baseline。把 attention 的方法用在 bag level 上对标注打分是一种非常有意思的思想。

@Bruce Pan：Convolutional Sequence to Sequence Learning 把 CNN 运用到 seq2seq 任务中，利用了 CNN 并行计算的优势，还有详细介绍了各种 Trick。顺便也为 Attention Is All You Need 打 call，两篇我都很喜欢。

@empty：在噪声数据上利用强化学习进行关系分类，对这篇印象深刻，当时听了这个 talk 受益匪浅，作者把强化学习用到关系抽取上。还有 KBQA 那篇，对这个领域进行了一些介绍。在这里立个 flag，2018 年要把候选 paper 都看一遍

@Shunzhou Wang：Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 效果很赞，估姿态很准，从 CPM 到 Real time 2D 再到 openpose，一系列的工作都喜欢，喜欢笔记本和行李牌，求抽中