Triple extraction is an essential task in information extraction for natural language processing and knowledge graph construction. In this paper, we revisit the end-to-end triple extraction task for sequence generation. Since generative triple extraction may struggle to capture long-term dependencies and generate unfaithful triples, we introduce a novel model, contrastive triple extraction with a generative transformer. Specifically, we introduce a single shared transformer module for encoder-decoder-based generation. To generate faithful results, we propose a novel triplet contrastive training object. Moreover, We introduce two mechanisms to further improve model performance (i.e., batch-wise dynamic attention-masking and triple-wise calibration). Experimental results on three datasets (i.e., NYT, WebNLG, and MIE) show that our approach achieves better performance than that of baselines. Our code and datasets will be released after publication.
翻译:三重提取是自然语言处理和知识图构建信息提取中的一项基本任务。 在本文中, 我们重新审视了序列生成的端到端三重提取任务。 由于基因三重提取可能难以捕捉长期依赖性和产生不忠的三重数据, 我们引入了一个新型模型, 对比的三重提取和基因变异器。 具体地说, 我们为以编码器- 解码器为基础的一代引入了一个单一的共享变压器模块。 为了产生可靠的结果, 我们提出了一个新的三重对比培训对象 。 此外, 我们引入了两个机制来进一步改进模型性能( 即分批动态聚焦和三重校准 ) 。 三个数据集的实验结果( 即NYT 、 WebNLG 和 MIE) 显示我们的方法比基线的功能要好。 我们的代码和数据集将在发布后发布 。