由于层次主题结构在海量文本语料库中普遍存在,将文档分类到给定的标签层次结构直观上很有吸引力。虽然相关研究在全监督层次文档分类方面取得了令人满意的效果,但通常需要大量的人工标注训练数据,且只利用文本信息。但在很多领域,(1)标注代价很高,可以获取的训练样本很少;(2)文档伴随元数据信息。因此,本文研究弱监管下如何整合标签层次结构、元数据和文本信号进行文档分类。我们开发了HiMeCat,一个基于嵌入的生成框架用于我们的任务。具体地说,我们提出了一种新的联合表示学习模块,它允许对类别相关性、元数据信息和文本语义进行同步建模,我们的实验证明了HiMeCat在Baseline上的持续改进,并验证了我们的表示学习和数据增强模块的贡献。

https://www.zhuanzhi.ai/paper/78629167dfc41e4a21cb8484c0b86e0a

成为VIP会员查看完整内容
10

相关内容

弱监督学习:监督学习的一种。大致分3类,第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。这种情况发生在各类任务中。例如,在图像分类任务中,真值标签由人类标注者给出的。从互联网上获取巨量图片很容易,然而考虑到标记的人工成本,只有一个小子集的图像能够被标注。第二类是不确切监督(inexact supervision),即,图像只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。出现这种情况的常见原因有,图片标注者不小心或比较疲倦,或者某些图片就是难以分类。
专知会员服务
25+阅读 · 2020年12月17日
【WSDM2021】保存节点相似性的图卷积网络
专知会员服务
40+阅读 · 2020年11月22日
专知会员服务
29+阅读 · 2020年9月18日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
【浙江大学】使用MAML元学习的少样本图分类
专知会员服务
62+阅读 · 2020年3月22日
论文浅尝 | 多标签分类中的元学习
开放知识图谱
6+阅读 · 2019年9月25日
图卷积神经网络(GCN)文本分类详述
专知
279+阅读 · 2019年4月5日
只有100个标记数据,如何精确分类400万用户评论?
深度学习世界
3+阅读 · 2018年8月21日
Arxiv
0+阅读 · 2020年12月15日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
4+阅读 · 2019年4月9日
Arxiv
6+阅读 · 2018年7月12日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2020年12月17日
【WSDM2021】保存节点相似性的图卷积网络
专知会员服务
40+阅读 · 2020年11月22日
专知会员服务
29+阅读 · 2020年9月18日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
【浙江大学】使用MAML元学习的少样本图分类
专知会员服务
62+阅读 · 2020年3月22日
微信扫码咨询专知VIP会员