【WSDM2021】弱监督下的分层元数据感知文档分类

由于层次主题结构在海量文本语料库中普遍存在，将文档分类到给定的标签层次结构直观上很有吸引力。虽然相关研究在全监督层次文档分类方面取得了令人满意的效果，但通常需要大量的人工标注训练数据，且只利用文本信息。但在很多领域，(1)标注代价很高，可以获取的训练样本很少;(2)文档伴随元数据信息。因此，本文研究弱监管下如何整合标签层次结构、元数据和文本信号进行文档分类。我们开发了HiMeCat，一个基于嵌入的生成框架用于我们的任务。具体地说，我们提出了一种新的联合表示学习模块，它允许对类别相关性、元数据信息和文本语义进行同步建模，我们的实验证明了HiMeCat在Baseline上的持续改进，并验证了我们的表示学习和数据增强模块的贡献。

https://www.zhuanzhi.ai/paper/78629167dfc41e4a21cb8484c0b86e0a

成为VIP会员查看完整内容

相关内容

弱监督学习

关注 7

弱监督学习：监督学习的一种。大致分3类，第一类是不完全监督（incomplete supervision），即，只有训练集的一个（通常很小的）子集是有标签的，其他数据则没有标签。这种情况发生在各类任务中。例如，在图像分类任务中，真值标签由人类标注者给出的。从互联网上获取巨量图片很容易，然而考虑到标记的人工成本，只有一个小子集的图像能够被标注。第二类是不确切监督（inexact supervision），即，图像只有粗粒度的标签。第三种是不准确的监督（inaccurate supervision），模型给出的标签不总是真值。出现这种情况的常见原因有，图片标注者不小心或比较疲倦，或者某些图片就是难以分类。

【WSDM2021】基于交叉融合的无监督属性网络嵌入

专知会员服务

26+阅读 · 2020年12月17日

【WSDM2021】保存节点相似性的图卷积网络

专知会员服务

41+阅读 · 2020年11月22日

【WSDM2021】通过知识图谱上的伪标记缓解推荐中的冷启动问题

专知会员服务

23+阅读 · 2020年11月13日

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

专知会员服务

13+阅读 · 2020年9月19日