【综述】关键词生成,附10页pdf论文下载

2019 年 10 月 16 日 专知

【导读】对于提取关键词的研究在十九世纪就已经开始了,但是基于encoder-decoder框架和sequence-to-squence序列学习的高级抽象方法,直到最近才被探索出来。事实上,在过去的三年内,学术界已经提出了十几种抽象的方法,能够生成有意义的关键词,并且效果良好。


原文链接:

https://arxiv.org/abs/1910.05059v1

介绍

在这篇综述中,我们研究了提取关键词方法的各个方面,其中主要关注基于神经网络的较新的抽象方法。特别地,我们注意到这种机制能够驱动后者变得更加完善。本文还介绍了近二十年来各种关键词生成和文本摘要的研究模式和发展趋势。我们首先会回顾一下最流行的KE方法,特别是有监督的、基于图的和其他无监督的方法。接下来我们会描述目前流行的关键词数据集:OAGKX。这个数据集可以被用作数据源去训练可监督的KG方法或者从更加具体的学科去生成其他副产品。


抽取关键词生成模型

1.可监督式模型

    KEA算法(Keyphrase Extraction Algorithm)使用类似TF-IDF和first occurrence这样的特征,然后使用朴素贝叶斯分类器来判断候选短语是否是关键短语。而在多个方面继承KEA的Maui算法则是又前进了一步。它结合多种类型的特征,并利用维基百科的文章作为语言知识的来源。也有一些尝试是通过探索各种特征设置来改善现有的方法,例如有学者就通过调研n-grams,noun phrases,PoS tags等特征设置得出结论:与只使用n-gram相比,使用与POS tags模式匹配的单词或n-gram可以提高召回率。

2.基于图的方法

    与无监督抽取KG方法相比,基于图的方法所需的计算资源是最多的。TextRank是一种基于图的排序方法,来源于PageRank算法。在上面的基础之上进化出了SingleRank和ExpandRank方法,从实验结果上看,在任何尺寸的邻域上,ExpandRank都要优于SinleRank。速度最快且可用的方法是RAKE,与TextRank相比,RAKE精确度更高,召回率更小。

3.其他方法

    除了上面提到的两类之外,还有一些是无监督的且不基于图的方法。他们中的大多数利用聚类和各种相似性度量来寻找最佳关键字段。如经典的TF-IDF就是计算分数并且对整篇文档的文本短语进行排序。同时,TF-IDF也是在KG方法研究中最常用的baseline之一。




请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“KPGS” 就可以获取本综述下载链接~

综述内容预览

-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加), 获取专知VIP会员码 ,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册成为 专知VIP会员
登录查看更多
0

相关内容

最新《多任务学习》综述,39页pdf
专知会员服务
263+阅读 · 2020年7月10日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
136+阅读 · 2020年6月17日
专知会员服务
49+阅读 · 2020年6月14日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
【文献综述】图像分割综述,224篇参考文献,附58页PDF
专知会员服务
119+阅读 · 2019年6月16日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
自动驾驶最新综述论文(31页PDF下载)
专知
118+阅读 · 2019年1月15日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
4+阅读 · 2018年10月31日
VIP会员
相关VIP内容
最新《多任务学习》综述,39页pdf
专知会员服务
263+阅读 · 2020年7月10日
最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
136+阅读 · 2020年6月17日
专知会员服务
49+阅读 · 2020年6月14日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
【文献综述】图像分割综述,224篇参考文献,附58页PDF
专知会员服务
119+阅读 · 2019年6月16日
Top
微信扫码咨询专知VIP会员