ACL 2019 | 面向远程监督关系抽取的模式诊断技术

2019 年 7 月 5 日 PaperWeekly

作者丨郑顺

学校丨清华大学交叉信息研究院五年级博士生

研究方向丨机器学习和信息抽取

研究动机

远程监督（Distant Supervision）可以为关系抽取任务自动地快速生成大量训练集。具体来说，远程监督是将知识库中的关系实例匹配到文本中，进而直接对实体对的文本描述赋予相应的关系类别。尽管能快速创建大量训练数据，这种“远程”的监督方式也引入了不可忽视的标注错误，比如下面这个的例子：

1. 第一个句子的确描述了实体间具有“出生地”的关系，然而由于知识库的不完整性，相应的远程监督标签（DS Label）是一个假阴性（FN）的错误；

2. 第二个句子其实并没有显示描述“出生地”这个关系，却因为“远程”的监督，而发生了假阳性（FP）的错误。

近年来的一个研究热点是弱监督融合（Weak Label Fusion），即通过融合多种不同的弱监督信号来生成更高质量的训练标签，这些弱监督信号可以由远程监督、基于模式的标注等等产生。

尽管弱监督融合既能生成更高质量的标注又有较好的可解释性，但也存在一定的局限性：通常假定由人（领域专家）来提供具有关系指向性的模式规则，比如：符合模式“mayor ENTITY1:PER .* ENTITY2:CITY”的句子倾向于与“出生地”关系无关。

这种人工撰写模式的方式既有着较高的技能要求（学习模板撰写的语法，调试程序等），又需要较大的工作量（搜索关系描述的典型样例，查验模板的覆盖率、准确性、临界情况等），而且当迁移到一个新的关系领域时，这些繁杂的工作又需要相应的领域专家们再重复一遍。

那么如何既能降低领域专家的技能要求和工作量，又能实现高效可解释的基于弱监督融合的训练数据生成呢？

本文就是沿着此方向的一次探索，我们对这个问题的核心观察是：1）远程监督可以让模型学到大致的关系指向信息；2）对领域专家来说，相对于编写模式，判断样本是否符合特定的关系类别是更加简单高效的。

基于这些观察，我们提出了一套神经模式诊断框架（DIAG-NRE）来桥接远程监督与弱监督融合，其大体流程如下图所示。

神经模式诊断框架

我们提出的神经模式诊断框架包含两个核心模块：模式抽取与模式精炼。

模式抽取

模式抽取部分的核心想法是通过强化学习训练一个代理网络（Agent Network）来获得关系相关的模式。

具体地，我们从关系分类模型中取出输入表征，作为输入状态（State），通过代理网络（Agent Network）获得针对每个词项的决策（Action，1：擦除，0：保留），进而生成新的状态，通过关系模型对新旧状态的不同预测概率计算决策的奖励（Reward），这里奖励设计的核心想法是鼓励在最大限度的保持预测概率的同时尽可能多地擦除无关词项。

在代理网络学会做最大化奖励的决策后，我们可以按照既定的规则保留实体信息、相对位置信息和关键词项从而得到相应的关系模式。

模式精炼

在模式精炼部分，我们首先构建一个模式层级结构用于高效遍历有代表性的模式，接着遍历模式层级结构（选取指定数量的模式）并采样出少量模式覆盖的样本用于人工标注。整体流程如下图所示，通过模式层级结构辅助模式选择以及人工标注来评估模式质量，我们可以得到具有高置信度的模式以及极少量的人工标注数据。

在弱监督融合部分，我们沿用了斯坦福大学提出的 Data Programming 方案，唯一的区别在于这里有很强的先验——DIAG-NRE 可输出高置信度的模式。因此，不同于原始方案中的无监督参数估计，我们基于前序的少量标注数据来估计弱监督融合部分的参数。

实验及分析

我们在两个大型公开的远程监督数据集（NYT、UW）的 14 种关系上验证神经模式诊断框架的有效性。为了评估对训练标签的降噪效果，我们对比不同的训练标签对应的模型在测试集上预测性能的差异，对比基线包括：

纯远程监督（Distant Supervision）
将少量人工标注标签混入远程监督集合（Gold Label Mix）
一种基于强化学习的训练标签自动调整（RLRE）

总体对比结果如下表所示：

可以看出，在大部分的关系任务上，DIAG-NRE 相对于远程监督以及其他基线均取得了很大的提升，其原因主要来自于对如下两种标签噪声的抑制。

假阴性标签：典型的例子是任务（“国家-行政区域-地区”关系），由于知识库覆盖有限，很多正确描述关系的样本都被赋予了 NA 标签（无已知关系）。因此训练出来的模型具有高准确率，低覆盖率的特点。

假阳性标签：典型的例子包括（“人-出生地-地区”关系），有很多模式并不能表示此关系，但是在远程监督的过程却频繁的出现，从而导致模型认为这些模式与关系相关。从下面这组例子，我们可以直观地理解 DIAG-NRE 是如何诊断及抑制这两种噪声标签的。

关系任务，模式“in ENTITY2:CITY PAD{1, 3} ENTITY1:COUNTRY”，可以覆盖 2072 个样本，但是其中只有 382 个样本被远程监督赋予了正确的标签，因而存在大量假阴性标签。关系任务，模式“mayor ENTITY1:PER PAD{1, 3} ENTITY2:CITY”其实并不能表示“出生地”关系，但远程监督却给 21 个此类型样本标注了“出生地”关系，这也就是所谓的假阳性标签。

其他的关系类型也或多或少存在类似的错误标签，然而无人工干预的自动调整方法并不能有效抑制这样的标签噪声，同时只加入少量人工纠正过的正确标签也难以覆盖到海量的噪声样本。与之相比，DIAG-NRE 辅助生成高置信度较高覆盖率的模式，再结合弱监督融合机制，从而高效地以可解释的方式减少标签噪声。

总结及展望

在这个工作中，我们在远程监督与弱监督融合两种技术之间搭建起了一座桥梁，既通过自动生成模式减轻了对领域专家在技能和工作量上的要求，又通过主动式的少量人工标注自动精炼高质量模式，从而赋能在新关系领域上的快速泛化。此外，DIAG-NRE 不仅能有效抑制标签噪声，同时可以诊断不同关系类型上噪声类型、严重程度等方面，进而直观解释了噪声标签因何而起，又是如何得到抑制。

由于具备快速构建训练数据的特性，远程监督近年来被广泛应用到其他领域，比如：问答系统、事件抽取等等，因此如何将 DIAG-NRE 的思路和优点引入到这些领域是值得研究的方向之一。