Hierarchical text classification, which aims to classify text documents into a given hierarchy, is an important task in many real-world applications. Recently, deep neural models are gaining increasing popularity for text classification due to their expressive power and minimum requirement for feature engineering. However, applying deep neural networks for hierarchical text classification remains challenging, because they heavily rely on a large amount of training data and meanwhile cannot easily determine appropriate levels of documents in the hierarchical setting. In this paper, we propose a weakly-supervised neural method for hierarchical text classification. Our method does not require a large amount of training data but requires only easy-to-provide weak supervision signals such as a few class-related documents or keywords. Our method effectively leverages such weak supervision signals to generate pseudo documents for model pre-training, and then performs self-training on real unlabeled data to iteratively refine the model. During the training process, our model features a hierarchical neural structure, which mimics the given hierarchy and is capable of determining the proper levels for documents with a blocking mechanism. Experiments on three datasets from different domains demonstrate the efficacy of our method compared with a comprehensive set of baselines.


翻译:旨在将文本文件分类为特定等级的等级制文本分类在许多现实应用中是一项重要任务。最近,深神经模型由于其表现力和特征工程的最起码要求,对文本分类越来越受欢迎。然而,应用深神经网络进行等级级文本分类仍然具有挑战性,因为它们严重依赖大量培训数据,同时不易确定等级设置中的适当文件级别。在本文件中,我们建议为等级文本分类采用一种薄弱、监管不力的神经系统方法。我们的方法不需要大量的培训数据,而只需要一些与阶级有关的文件或关键词等容易获得的薄弱监督信号。我们的方法有效地利用这些薄弱的监督信号来生成模拟培训前的假文件,然后对真实的无标签数据进行自我培训,以便迭接地完善模型。在培训过程中,我们的模型具有一种等级神经结构,它模拟了给给定的等级,能够用阻塞机制确定文件的适当级别。从三个不同领域进行的实验表明我们的方法与一套综合基线相比是有效的。

3
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
9+阅读 · 2019年4月19日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
5+阅读 · 2019年4月25日
Arxiv
9+阅读 · 2019年4月19日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
5+阅读 · 2018年1月18日
Top
微信扫码咨询专知VIP会员