题目
使用多个本地功能从单个文档中提取关键字,YAKE! Keyword extraction from single documents using multiple local features
关键词
关键词提取,自然语言处理,人工智能
简介
随着生成的信息量的增加,阅读和汇总大量馆藏的文本成为一项艰巨的任务。许多文档没有附带描述性术语,因此要求人类即时生成关键字。自动化此类任务的需求要求开发具有自动识别文本中关键字的能力的关键字提取系统。一种方法是求助于机器学习算法。但是,这些依赖于大注释的文本语料库,这些语料库并非总是可用。另一种解决方案是考虑一种无监督的方法。在本文中,我们描述了YAKE !,这是一种轻量级无监督自动关键字提取方法,该方法基于从单个文档中提取的统计文本特征来选择文本中最相关的关键字。我们的系统不需要针对特定的文档集进行培训,也不必依赖于字典,外部语料库,文本大小,语言或域。为了展示YAKE!的优点和意义,我们将其与十种最新的无监督方法和一种有监督的方法进行了比较。在二十个数据集之上进行的实验结果表明,YAKE!对于不同大小,语言和域的文本,其性能明显优于其他无监督方法。
作者
Ricardo Campos, Vítor Mangaravite, Arian Pasquali, Alípio Jorge, Célia Nunes, Adam Jatowt