来自华为的研究人员在UIUC2021上将给出关于预训练模型与文本挖掘的教程,非常值得关注!

近年来,文本表示学习在广泛的文本挖掘任务中取得了巨大的成功。早期的单词嵌入学习方法将单词表示为固定的低维向量,以捕获它们的语义。然后,将学习到的词嵌入作为特定任务模型的输入特征。近年来,预训练语言模型(pre-training language model, PLMs)在自然语言处理(natural language processing, NLP)领域发生了革命性的变化,自然语言处理(natural language processing, NLP)通过大规模文本语料库上预训练的基于transformer的神经模型来学习通用语言表示。这种预训练过的表示对通用语言特征进行编码,这些特征几乎可以迁移到任何与文本相关的应用中。在许多应用中,PLM优于先前的任务特定模型,因为它们只需要对目标语料库进行微调,而无需从头开始训练。

https://yumeng5.github.io/kdd21-tutorial/

在本教程中,我们将介绍预训练文本嵌入和语言模型的最新进展,以及它们在广泛的文本挖掘任务中的应用。具体来说,我们首先概述了一组最近开发的自监督和弱监督文本嵌入方法和预训练的语言模型,它们是下游任务的基础。然后,我们提出了几种基于预先训练的文本嵌入和语言模型的新方法,用于各种文本挖掘应用,如主题发现和文本分类。我们关注的方法是弱监督、领域独立、语言不可知、有效和可扩展的,用于从大规模文本语料库中挖掘和发现结构化知识。我们将在真实的数据集上演示预先训练的文本表示如何帮助减轻人工标注的负担,并促进自动、准确和高效的文本分析。

目录: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

成为VIP会员查看完整内容
42

相关内容

web挖掘的一个分支,用于从文本数据中获取有趣的信息和知识,主要用于信息检索、智能商务、生物信息技术等
【NAACL2021】Graph4NLP:图深度学习自然语言处理,附239页ppt
专知会员服务
105+阅读 · 2021年6月12日
【NAACL2021】长序列自然语言处理, 250页ppt
专知会员服务
61+阅读 · 2021年6月7日
专知会员服务
13+阅读 · 2021年1月18日
专知会员服务
38+阅读 · 2020年10月13日
【KDD2020教程】多模态网络表示学习
专知会员服务
128+阅读 · 2020年8月26日
【KDD2020】图神经网络:基础与应用,322页ppt
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
ICML2019《元学习》教程与必读论文列表
专知
41+阅读 · 2019年6月16日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
25+阅读 · 2021年3月20日
Arxiv
9+阅读 · 2021年2月8日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
VIP会员
相关VIP内容
【NAACL2021】Graph4NLP:图深度学习自然语言处理,附239页ppt
专知会员服务
105+阅读 · 2021年6月12日
【NAACL2021】长序列自然语言处理, 250页ppt
专知会员服务
61+阅读 · 2021年6月7日
专知会员服务
13+阅读 · 2021年1月18日
专知会员服务
38+阅读 · 2020年10月13日
【KDD2020教程】多模态网络表示学习
专知会员服务
128+阅读 · 2020年8月26日
相关资讯
【KDD2020】图神经网络:基础与应用,322页ppt
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
ICML2019《元学习》教程与必读论文列表
专知
41+阅读 · 2019年6月16日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
微信扫码咨询专知VIP会员