题目: Octet: Online Catalog Taxonomy Enrichment with Self-Supervision
简介:
分类法在各个领域都有广泛的应用,特别是在在线项目分类、浏览和搜索方面。尽管在线目录分类法的使用很普遍,但实际上大多数分类法都是由人类维护的,这是劳动密集型的,难以扩展。虽然从零开始的分类学构建在文献中得到了大量的研究,但是如何有效地丰富现有的不完全分类学仍然是一个开放而重要的研究问题。分类法的丰富性不仅要求对新出现的术语具有健壮性,而且要求现有分类法结构与新术语附件之间的一致性。在本文中,我们提出了一个自我监督的端到端框架Octet,用于在线目录分类法的丰富。Octet利用联机目录分类法独有的异构信息,例如用户查询、项及其与分类法节点的关系,而不需要除现有分类法以外的其他监督。提出了一种用于术语提取的序列标记模型,并利用图神经网络(GNNs)来捕获术语连接的分类结构和查询项分类交互。在不同的在线领域进行的大量实验表明,通过自动和人工评估,Octet方法优于最新的方法。值得注意的是,Octet丰富了生产中的在线目录分类法,使其在开放世界评估中的规模增加了2倍。