这篇SOTA并不是第一次将实体标识符加入到文本input中,去年在Google的论文Matching the Blanks[6]中就采取标识符强化实体表征,但却没有引入实体类型进行标识,只是采取MARKERS那种方式标记。实体类别信息对于关系模型很重要这一结论,在最新的EMNLP20的一篇刘知远老师团队的《Learning from Context or Names?An Empirical Study on Neural Relation Extraction》中也被提及和证明。anyway,记住一点:引入实体类别信息会让你的关系模型有提升~Q2、共享编码 VS 独立编码 哪家强?在刻板印象中:基于参数共享编码的joint模型能够建模实体和关系的交互、促进彼此。但这篇居然是采取两个独立的编码器分别构建实体模型和关系模型,WHY?不过,论文也给出了两个模型共享编码进行联合优化的实验,如下图所示:可以看出共享编码反而使实体和关系的F1都下降了,丹琦大佬也解释道:这是由于两个任务各自是不同的输入形式,并且需要不同的特征去进行实体和关系预测,也就是说:使用单独的编码器确实可以学习更好的特定任务特征。不过,JayJay认为:不能一概而论地就认为独立编码就一定好于共享编码,或许是共享编码机制过于简单了呢?但不可否认,对于实体和关系确实需要特定的特征编码,在构建joint模型时如果只是简单的强行共享编码,真的可能会适得其反。真是很巧,最近EMNLP20的一篇《Two are Better than One:Joint Entity and Relation Extraction with Table-Sequence Encoders》(这篇SOTA之前的SOTA)也认为:大多数joint模型都是共享同一个编码,但这种方式存在一个问题:针对一项任务提取的特征可能与针对另一项任务提取的特征一致或冲突,从而使学习模型混乱。于是乎,作者设计了2种不同的编码器(表格编码器和序列编码器),以在表示学习过程中互相帮助,最后通过实验表明使用2个编码器好于只使用1个编码。anyway,记住一点:对于实体关系抽取,2个独立的编码器也许会更好~Q3、误差传播不可避免?还是不存在?众所周知,pipeline不是存在「误差传播」吗?也就是说,关系模型在训练的时候,输入的是gold实体进行关系判断,这会导致训练和推断时候的差异(暴露偏差)。那是不是在训练的时候输入预测的实体进行关系判断,会在推断时效果变好呢?于是论文采用10-way jackknifing方式(一种交叉验证)做了相关实验,发现训练时输入预测实体反而降低了F1值,毕竟这种方式会在训练的时候引入噪音啊~采取pipeline进行推断时,如果有些gold实体在实体模型中没有被抽取出来,那么关系模型也就不会预测与该实体相关联的任何关系了。那有没有可能通过召回更多的实体,来减轻这种误差传播呢?论文也尝试召回更多的实体进行了实验,发现并没有提升F1值。通过上述实验发现一些尝试均未显着改善性能,而论文提出的简单的pipeline却证明是一种出乎意料的有效策略~但丹琦大佬也指出:并不认为误差传播问题不存在或无法解决,而需要探索更好的解决方案来解决此问题。不过,pipeline存在误差传播,而那些基于共享编码的joint模型也存在误差传播啊,至于是不是真的会减轻这种误差传播也有待考证。anyway,留给我们的一个课题就是:误差传播怎么解决?还好,我们NLPer一直在尝试。最近COLING2020的一篇paper[7]为了缓解这个问题,提出了一种单阶段的联合提取模型TPLinker,其不包含任何相互依赖的抽取步骤,因此避免了在训练时依赖于gold的情况,从而实现了训练和测试的一致性。是不是很神奇? 3
参考文献:[1] Joint entity recogni- tion and relation extraction as a multi-head selection problem: https://www.sciencedirect.com/science/article/abs/pii/S095741741830455X?via%3Dihub[2] A Novel Cascade Binary Tagging Framework for Relational Triple Extraction: https://arxiv.org/pdf/1909.03227.pdf[3] Span-based Joint Entity and Relation Extraction with Transformer Pre-training: https://arxiv.org/pdf/1909.07755.pdf[4] Joint extraction of entities and relations based on a novel tagging scheme: https://arxiv.org/pdf/1706.05075.pdf[5] Entity-Relation Extraction as Multi-Turn Question Answering : https://arxiv.org/pdf/1905.05529.pdf[6] Matching the Blanks: Distributional Similarity for Relation Learning: https://arxiv.org/pdf/1906.03158.pdf[7] TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking: https://arxiv.org/pdf/2010.13415.pdf 点击阅读原文,直达直播页面~