Background: Keyword extraction is a popular research topic in the field of natural language processing. Keywords are terms that describe the most relevant information in a document. The main problem that researchers are facing is how to efficiently and accurately extract the core keywords from a document. However, previous keyword extraction approaches have utilized the text and graph features, there is the lack of models that can properly learn and combine these features in a best way. Methods: In this paper, we develop a multimodal Key-phrase extraction approach, namely Phraseformer, using transformer and graph embedding techniques. In Phraseformer, each keyword candidate is presented by a vector which is the concatenation of the text and structure learning representations. Phraseformer takes the advantages of recent researches such as BERT and ExEm to preserve both representations. Also, the Phraseformer treats the key-phrase extraction task as a sequence labeling problem solved using classification task. Results: We analyze the performance of Phraseformer on three datasets including Inspec, SemEval2010 and SemEval 2017 by F1-score. Also, we investigate the performance of different classifiers on Phraseformer method over Inspec dataset. Experimental results demonstrate the effectiveness of Phraseformer method over the three datasets used. Additionally, the Random Forest classifier gain the highest F1-score among all classifiers. Conclusions: Due to the fact that the combination of BERT and ExEm is more meaningful and can better represent the semantic of words. Hence, Phraseformer significantly outperforms single-modality methods.


翻译:关键字提取是自然语言处理领域最受欢迎的研究课题: 关键字提取是自然语言处理领域最受欢迎的研究主题。 关键字是描述文档中最相关信息的术语。 研究人员面临的主要问题是如何高效和准确地从文档中提取核心关键字。 然而, 先前的关键字提取方法已经使用了文本和图形特征, 缺乏能够以最佳方式正确学习和结合这些特征的模型。 方法 : 在本文件中, 我们开发了一种多式关键词提取方法, 即使用变压器和图形嵌入技术。 在词典中, 每个关键词候选者都由一个矢量( 即文本和结构学习演示的配音) 来显示。 词典提取方法利用了最新研究的优势, 如 BERT 和 ExEm 来保存这两个表达方式。 另外, 词典将关键词提取任务作为通过分类任务解决的顺序标签问题。 结果: 我们用F1 核心 来分析包括 Inspect、 Semval 2010 和 Semeval 2017 的组合中, 每个关键对象都由一个矢量为文本和结构 学习演示工具中最高级的 。 我们调查了不同变变变变变变变的变变的变变的变的变式 方法, 。 。 的变式的变式的变式的变式的变式的变式的变式的变式 。

0
下载
关闭预览

相关内容

【知识图谱@EMNLP2020】Knowledge Graphs in NLP @ EMNLP 2020
专知会员服务
42+阅读 · 2020年11月22日
专知会员服务
123+阅读 · 2020年9月8日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
41+阅读 · 2020年9月7日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
Top
微信扫码咨询专知VIP会员