一周论文 | 关于远程监督，我们来推荐几篇值得读的论文

2017 年 8 月 19 日 机器之心

说起关系抽取，就不得不提远程监督（distant supervision），将已有的知识库（比如 freebase）对应到丰富的非结构化数据中（比如新闻文本），从而生成大量的训练数据，从而训练出一个效果不错的关系抽取器。提到远程监督，下面的这篇工作就不得不提：

[1] Distant supervision for relation extraction without labeled data

本文并非第一篇提出远程监督概念的 paper，但是第一个将远程监督概念应用到关系抽取任务中，并且提出了一个著名的假设。

If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.

这个假设非常的大，其实很多的共现 entities 都没有什么关系，仅仅是出现在同一个句子中；而有的 entities 之间的关系其实并不仅仅只有一种，可能有多种，比如奥巴马和美国的关系，可能是 born in，也可能是 is the president of 的关系。

基于这个假设条件下的关系抽取工作通常都存在两个明显的弱点：

1. 基于文献 [1] 给出的假设，训练集会产生大量的 wrong labels，比如两个实体有多种关系或者根本在这句话中没有任何关系，这样的训练数据会对关系抽取器产生影响。

2. NLP 工具带来的误差，比如 NER，比如 Parsing 等，越多的 feature engineering 就会带来越多的误差，在整个任务的 pipeline 上会产生误差的传播和积累，从而影响后续关系抽取的精度。

关于问题（1）中 wrong labels 的问题，有的工作将关系抽取定义为一个 Multi-instance Multi-label 学习问题，比如工作 Multi-instance Multi-label Learning for Relation Extraction ，训练集中的每个 instance 都可能是一种 label。

而有的工作则是将问题定义为 Multi-instance Single-label 问题，假设共现的 entity 对之间只存在一种关系或者没有关系，一组包括同一对 entities 的 instances 定义为一个 Bag，每一个 Bag 具有一个 label，最终训练的目标是优化 Bag Label 的准确率。第一种假设更加接近于实际情况，研究难度也相对更大一些。

关于问题（2）中的 pipeline 问题，用深度学习的思路来替代特征工程是一个非常自然的想法，用 word embedding 来表示句子中的 entity 和 word，用 RNN 或者 CNN 以及各种 RNN 和 CNN 的变种模型来对句子进行建模，将训练句子表示成一个 sentence vector，然后进行关系分类，近几年有几个工作都是类似的思路，比如：

[3] Relation Classification via Convolutional Deep Neural Network

[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

[5] Neural Relation Extraction with Selective Attention over Instances

[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

其中 [3] 是用 CNN 对句子进行建模然后进行分类学习，在表示中针对 entity 的位置定义了一种 position embedding，如图 1：

▲ 图 1：用 CNN 来建模句子

[4] 是 [3] 的改进工作，对 CNN 的 pooling 进行了专门的改进，如图 2：

▲ 图 2：PCNN 是文献 [3] 中 CNN 的改进版

[5] 的工作是在 [4] 的基础上采用了 attention 模型，对每个 Bag 中的 instance 进行了权重的学习，label 正确的 instance 贡献更多的力量，label 不正确的 instance 贡献就低，从而提高了分类的准确率，如图 3：

▲ 图 3：基于 attention 的关系分类模型

[6] 是在 [4] [5] 的基础上添加了 entity 的描述信息来辅助学习 entity 的表示，从而提高了准确率，如图 4：

▲ 图 4：利用了 entity 的辅助信息来提升效果

用深度学习来进行解决特征表示的问题效果非常明显，但解决 pipeline 误差传播和积累的问题，其实有一个天然的思路就是 joint learning，将多个 step 的学习整合为同一个 task，从而降低中间过程的误差。近几年有以下几个工作可以关注一下：

[7] Modeling Joint Entity and Relation Extraction with Table Representation

[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

[7] 的工作和 [9] 的工作有一些类似的地方，都是将整个任务转化为一种序列标注任务，用自定义的标签重新定义了句子的实体和关系。[9] 的工作是 ACL 2017 的 outstanding paper，用了近几年流行的 seq2seq 来生成和推理标签，效果会比传统的 crf 等算法更好。

▲ 图 5：文献 [7] 的标注方法

▲ 图 6：文献 [9] 的标注方法

[8] 的工作是将 entity 和 relation 分别映射在两个向量空间中，然后联合起来对 entity 和 relaiton 进行推理。如图 7：

▲ 图 7：CoType 模型图

关系抽取是一类经典的 NLP 任务，也是构建高质量知识图谱的基础，针对关系抽取的研究工作非常多，远程监督是研究中的热点方法，本文收集了一些代表性的工作，即将上线的 PaperWeekly 社区将会推出一个【论文集】的功能，社区用户可以根据自己感兴趣的 topic，收集相关的 paper，我们也会不定期地放出更多精彩的 topic related 的 paper，每篇 paper 都会有用户的笔记、讨论、论文相关的数据集和开源代码，敬请期待！

参考文献：

在 PaperWeekly 微信公众号后台回复 “远程监督”，即可一键下载所有论文。