Q：把三元组装冰箱里需要几步？A：一步！

会员服务 ·

Q：把三元组装冰箱里需要几步？A：一步！

2022 年 5 月 23 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 宁金忠

单位 | 大连理工大学

研究方向 | 信息抽取

论文标题：

Relational Triple Extraction: One Step is Enough

论文来源：

IJCAI 2022

论文链接：

https://arxiv.org/abs/2205.05270

Motivation

本文的研究任务为关系三元组抽取任务。已有的实体关系三元组抽取方法可以分为三大类：1）基于序列标注的方法（CASREL 、PRGC 等）；2）基于填表的方法（TPLinker 等）；3）基于生成的方法（CopyRE ，CopyMTL ）等。

已有的方法需要首先确定头实体和尾实体的范围，然后将其组合成三元组。但是这样的方式使得模型面临误差累计的问题。

Contribution

作者首次提出把关系三元组抽取任务看做一个候选实体构成的 bipartite graph 的连接问题。这一方式避免了三元组抽取过程中的误差传播问题。

作者提出的 DirectRel 和与其属于同期工作的 OneRel 率先提出了 one-step 抽取关系三元组的思想。

文中的实验结果表明了 DirectRel 在 NYT，WebNLG，NYT ，WebNLG 四个数据集上取得了教好的结果。

Method

3.1 Candidate Entities Generation

在数据处理阶段，作者使用枚举的方式生成所有长度小于的候选实体。例如，当的时候，对于句子"Beijing is the capital of China"，其候选实体组成的集合为：{ “Beijing”, “Beijing is”, “is”, “is the”, “the”, “the Capital”, “Capital”, “Capital of ”, “of ”, “of China”, “China”}。

这样的处理方式会带来两个问题：1）使标签空间变的更稀疏，从而使模型更加倾向于标注出负例；2）该方法会显著增加模型训练时的运算开销。

为了解决上述两个问题，作者提出了从候选实体集合中随机抽选出个负例实体以及所有的 ground truth 实体组成。然后使用中的实体来训练模型。

3.2 Bipartite Graph Linking

对于一个给定的句子，作者使用 BERT 得到句子的表示：

对于每个候选实体，使用 start token 和 end token 的向量取平均作为每个候选实体的表示：

作者使用 head project 和 tail project 两个线性变换，把候选实体的表示映射到头尾实体的表示空间中：

最后，对于每一个关系，作者通过预测候选实体对之间是否有连接来确定两个实体是够构成一个有效三元组：

显然，本文的方法可以有效应对嵌套实体的情况。并且对于 EntityPairOverlap (EPO)，SingleEntityOverlap (SEO)，HeadTailOverlap (HTO) 等情况均可有效解决。

3.3 Objective Function

作者采用 BCE loss 来作为损失函数训练模型：

Experiments

4.1 Main Results

从表 2 中可以看出，DirectRel 达到在四个数据集上均达到的 SOTA 结果。和同期的 OneRel 相比，DirectRel 在 NYT 和 NYT 上依然达到 SOTA 结果。

4.2 Detailed Results on Complex Scenarios

从表 3 中，作者根据实体的嵌套情况和句子中包含实体的长度，把测试集划分成了 18 个子测试集。DirectRel 在 18 个子测试集的 15 个上取得了最佳的性能。

4.3 Parameter Analysis

本章节作者主要分析了负采样数对模型泛化性能和收敛速度的影响。可以看出随着负采样数的增加，模型的训练时间和 GPU 显存占用均明显提升。但是增加到一定程度，模型的性能出现一定程度的下降。这说明给模型设置一定的负采样数具有积极意义。

总结

相比 TPLinker 和 OneRel 中建模头尾实体的 token 维度的关联关系的方法，DirectRel 采用候选实体之间连接建模的方法，确实可以实现一步到位 decoding 出三元组。虽然作者在模型训练时采用了负采样的方式，显著降低了模型训练的运算开销。但是在模型推理过程中，所有候选实体之间的连接预测可能会导致运算量显著提升。