文本数据在网络上无处不在且海量:新闻报道、社交媒体帖子、维基百科文章等每天都在网上创建和更新。虽然它们包含丰富的信息和知识,但在文本密集型应用中有效利用它们仍然是一个公开的挑战。预训练语言模型(PLM)的最新进展已经彻底改变了文本挖掘和处理:通过在从网络获得的大规模文本语料库上预训练神经架构,然后将其表示转移到特定任务的数据中,可以有效利用在网络规模语料库中编码的知识,从而显著提高下游任务的性能。PLM最常见的自适应方法是预训练-微调范式,其中PLM在下游任务标记的数据上进行进一步训练。然而,这种范式的主要挑战是,对PLM的全监督微调通常需要大量的人工标注,而在实践中获取这些标注是昂贵的。
在本教程中,我们将介绍从网络规模的语料库中学习的预训练文本表示的最新进展,以及它们在广泛的文本挖掘任务中的应用。本文专注于不需要大量人工标注的弱监督方法,包括(1)作为下游任务基础的预训练语言模型,(2)用于从大规模文本语料库中发现主题的无监督和种子引导方法,以及(3)用于文本分类和高级文本挖掘任务的弱监督方法。