多标签文本分类涉及到从标签集中为每个给定文档分配其最相关标签的问题。通常,给定文档的元数据和标签的层次结构在实际应用是可用的。然而,现有的研究大多只关注于文本信息的建模,也有少数尝试使用元数据或层次信号,但没有同时使用它们。在本文中,我们通过在一个大的标签层次结构(例如,有成千上万个标签)中形式化元数据感知文本分类的问题来弥补这一差距。为了解决这个问题,我们提出了MATCH解决方案——一个利用元数据和层次结构信息的端到端框架。为了整合元数据,我们预先训练文本和元数据在同一空间的嵌入,并利用完全连接的注意力来捕捉它们之间的相互关系。为了充分利用标签层次结构,我们提出了不同的方法来规整每个子标签的参数和输出概率。在两个具有大规模标签层次的大规模文本数据集上进行的大量实验证明了在最先进的深度学习基线上匹配的有效性。
https://www.zhuanzhi.ai/paper/f6f0aa93aec55dee2e115f8c40147b79
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“MATCH” 可以获取《【WWW2021】大规模层次结构中的元数据感知文本分类》专知下载链接索引