由于层次主题结构在海量文本语料库中普遍存在,将文档分类到给定的标签层次结构直观上很有吸引力。虽然相关研究在全监督层次文档分类方面取得了令人满意的效果,但通常需要大量的人工标注训练数据,且只利用文本信息。但在很多领域,(1)标注代价很高,可以获取的训练样本很少;(2)文档伴随元数据信息。因此,本文研究弱监管下如何整合标签层次结构、元数据和文本信号进行文档分类。我们开发了HiMeCat,一个基于嵌入的生成框架用于我们的任务。具体地说,我们提出了一种新的联合表示学习模块,它允许对类别相关性、元数据信息和文本语义进行同步建模,我们的实验证明了HiMeCat在Baseline上的持续改进,并验证了我们的表示学习和数据增强模块的贡献。
https://www.zhuanzhi.ai/paper/78629167dfc41e4a21cb8484c0b86e0a