来自华为的研究人员在UIUC2021上将给出关于预训练模型与文本挖掘的教程,非常值得关注!
近年来,文本表示学习在广泛的文本挖掘任务中取得了巨大的成功。早期的单词嵌入学习方法将单词表示为固定的低维向量,以捕获它们的语义。然后,将学习到的词嵌入作为特定任务模型的输入特征。近年来,预训练语言模型(pre-training language model, PLMs)在自然语言处理(natural language processing, NLP)领域发生了革命性的变化,自然语言处理(natural language processing, NLP)通过大规模文本语料库上预训练的基于transformer的神经模型来学习通用语言表示。这种预训练过的表示对通用语言特征进行编码,这些特征几乎可以迁移到任何与文本相关的应用中。在许多应用中,PLM优于先前的任务特定模型,因为它们只需要对目标语料库进行微调,而无需从头开始训练。
https://yumeng5.github.io/kdd21-tutorial/
在本教程中,我们将介绍预训练文本嵌入和语言模型的最新进展,以及它们在广泛的文本挖掘任务中的应用。具体来说,我们首先概述了一组最近开发的自监督和弱监督文本嵌入方法和预训练的语言模型,它们是下游任务的基础。然后,我们提出了几种基于预先训练的文本嵌入和语言模型的新方法,用于各种文本挖掘应用,如主题发现和文本分类。我们关注的方法是弱监督、领域独立、语言不可知、有效和可扩展的,用于从大规模文本语料库中挖掘和发现结构化知识。我们将在真实的数据集上演示预先训练的文本表示如何帮助减轻人工标注的负担,并促进自动、准确和高效的文本分析。
目录: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]