题目

使用多个本地功能从单个文档中提取关键字,YAKE! Keyword extraction from single documents using multiple local features

关键词

关键词提取,自然语言处理,人工智能

简介

随着生成的信息量的增加,阅读和汇总大量馆藏的文本成为一项艰巨的任务。许多文档没有附带描述性术语,因此要求人类即时生成关键字。自动化此类任务的需求要求开发具有自动识别文本中关键字的能力的关键字提取系统。一种方法是求助于机器学习算法。但是,这些依赖于大注释的文本语料库,这些语料库并非总是可用。另一种解决方案是考虑一种无监督的方法。在本文中,我们描述了YAKE !,这是一种轻量级无监督自动关键字提取方法,该方法基于从单个文档中提取的统计文本特征来选择文本中最相关的关键字。我们的系统不需要针对特定​​的文档集进行培训,也不必依赖于字典,外部语料库,文本大小,语言或域。为了展示YAKE!的优点和意义,我们将其与十种最新的无监督方法和一种有监督的方法进行了比较。在二十个数据集之上进行的实验结果表明,YAKE!对于不同大小,语言和域的文本,其性能明显优于其他无监督方法。

作者

Ricardo Campos, Vítor Mangaravite, Arian Pasquali, Alípio Jorge, Célia Nunes, Adam Jatowt

成为VIP会员查看完整内容
25

相关内容

用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
3+阅读 · 2018年5月21日
VIP会员
相关VIP内容
相关资讯
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
微信扫码咨询专知VIP会员