http://hanj.cs.illinois.edu/pdf/www20_jshang.pdf
主题分类法的自动构建可以使许多应用程序受益,包括web搜索、推荐和知识发现。自动分类构建的主要优点之一是能够捕获特定于语料库的信息并适应不同的场景。为了更好地反映语料库的特点,我们考虑了文档的元数据,将语料库看作是一个文本丰富的网络。在本文中,我们提出了NetTaxo,这是一个新的自动主题分类构建框架,它超越了现有的范式,允许文本数据与网络结构协作。具体来说,我们从文本和网络作为上下文学习术语嵌入。采用网络图形来捕获适当的网络上下文。我们对motifs进行实例级选择,该选择根据每个分类节点的粒度和语义进一步细化术语嵌入。然后应用集群来获得分类法节点下的子主题。在两个真实数据集上的大量实验证明了我们的方法优于最先进的,并进一步验证了实例级基序选择的有效性和重要性。
http://hanj.cs.illinois.edu/pdf/www20_jshang.pdf
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“NETXO” 就可以获取《【WWW2020-UIUC】自动主题分类法构建,Automated Topic Taxonomy Construction》专知下载链接