预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides - 专知VIP

会员服务 ·

8

文本挖掘 · 预训练模型 · KDD 2021 ·

2021 年 8 月 18 日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

来自华为的研究人员在UIUC2021上将给出关于预训练模型与文本挖掘的教程，非常值得关注!

近年来，文本表示学习在广泛的文本挖掘任务中取得了巨大的成功。早期的单词嵌入学习方法将单词表示为固定的低维向量，以捕获它们的语义。然后，将学习到的词嵌入作为特定任务模型的输入特征。近年来，预训练语言模型(pre-training language model, PLMs)在自然语言处理(natural language processing, NLP)领域发生了革命性的变化，自然语言处理(natural language processing, NLP)通过大规模文本语料库上预训练的基于transformer的神经模型来学习通用语言表示。这种预训练过的表示对通用语言特征进行编码，这些特征几乎可以迁移到任何与文本相关的应用中。在许多应用中，PLM优于先前的任务特定模型，因为它们只需要对目标语料库进行微调，而无需从头开始训练。

https://yumeng5.github.io/kdd21-tutorial/

在本教程中，我们将介绍预训练文本嵌入和语言模型的最新进展，以及它们在广泛的文本挖掘任务中的应用。具体来说，我们首先概述了一组最近开发的自监督和弱监督文本嵌入方法和预训练的语言模型，它们是下游任务的基础。然后，我们提出了几种基于预先训练的文本嵌入和语言模型的新方法，用于各种文本挖掘应用，如主题发现和文本分类。我们关注的方法是弱监督、领域独立、语言不可知、有效和可扩展的，用于从大规模文本语料库中挖掘和发现结构化知识。我们将在真实的数据集上演示预先训练的文本表示如何帮助减轻人工标注的负担，并促进自动、准确和高效的文本分析。

目录: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

成为VIP会员查看完整内容

44

相关内容

文本挖掘

web挖掘的一个分支，用于从文本数据中获取有趣的信息和知识，主要用于信息检索、智能商务、生物信息技术等

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

专知会员服务

106+阅读 · 2021年6月12日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

「图神经网络GNN:模型与应用」最新SDM2021-Tutorial，附视频与203页ppt

专知会员服务

93+阅读 · 2021年5月1日

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

专知会员服务

178+阅读 · 2021年2月6日

【AAAI2021】长文本的上下文推理

专知会员服务

14+阅读 · 2021年1月18日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知会员服务

41+阅读 · 2020年10月13日

【KDD2020教程】多模态网络表示学习

【KDD2020教程】多模态网络表示学习

专知会员服务

132+阅读 · 2020年8月26日

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

专知

5+阅读 · 2020年10月17日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知

35+阅读 · 2020年8月29日

ERNIE Tutorial（论文笔记 + 实践指南）

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

ICML2019《元学习》教程与必读论文列表

ICML2019《元学习》教程与必读论文列表

专知

42+阅读 · 2019年6月16日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

最佳实践：深度学习用于自然语言处理（三）

最佳实践：深度学习用于自然语言处理（三）

待字闺中

3+阅读 · 2017年8月20日

RobeCzech: Czech RoBERTa, a monolingual contextualized language representation model

Arxiv

0+阅读 · 2021年10月14日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding

Arxiv

3+阅读 · 2021年7月1日

Self-supervised Learning: Generative or Contrastive

Arxiv

25+阅读 · 2021年3月20日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Investigating Meta-Learning Algorithms for Low-Resource Natural Language Understanding Tasks

Arxiv

5+阅读 · 2019年8月27日

Feature Selection Library (MATLAB Toolbox)

Feature Selection Library (MATLAB Toolbox)

Arxiv

7+阅读 · 2018年8月6日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

VIP会员

相关主题

预训练模型

相关VIP内容

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

【NAACL2021】Graph4NLP：图深度学习自然语言处理，附239页ppt

专知会员服务

106+阅读 · 2021年6月12日

【NAACL2021】长序列自然语言处理, 250页ppt

【NAACL2021】长序列自然语言处理, 250页ppt

专知会员服务

62+阅读 · 2021年6月7日

「图神经网络GNN:模型与应用」最新SDM2021-Tutorial，附视频与203页ppt

专知会员服务

93+阅读 · 2021年5月1日

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

专知会员服务

178+阅读 · 2021年2月6日

【AAAI2021】长文本的上下文推理

专知会员服务

14+阅读 · 2021年1月18日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知会员服务

41+阅读 · 2020年10月13日

【KDD2020教程】多模态网络表示学习

【KDD2020教程】多模态网络表示学习

专知会员服务

132+阅读 · 2020年8月26日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰太空研究（2022-2024年） | 176页

新型军用战斗机无人机（MFUAV’s）| 2025最新80页

国防领域人工智能走向何方？

无人机对士兵的心理影响

相关资讯

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

专知

5+阅读 · 2020年10月17日

【KDD2020】图神经网络:基础与应用，322页ppt

【KDD2020】图神经网络:基础与应用，322页ppt

专知

35+阅读 · 2020年8月29日

ERNIE Tutorial（论文笔记 + 实践指南）

ERNIE Tutorial（论文笔记 + 实践指南）

AINLP

30+阅读 · 2019年8月28日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

ICML2019《元学习》教程与必读论文列表

ICML2019《元学习》教程与必读论文列表

专知

42+阅读 · 2019年6月16日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

最佳实践：深度学习用于自然语言处理（三）

最佳实践：深度学习用于自然语言处理（三）

待字闺中

3+阅读 · 2017年8月20日

相关论文

RobeCzech: Czech RoBERTa, a monolingual contextualized language representation model

Arxiv

0+阅读 · 2021年10月14日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding

Arxiv

3+阅读 · 2021年7月1日

Self-supervised Learning: Generative or Contrastive

Arxiv

25+阅读 · 2021年3月20日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Investigating Meta-Learning Algorithms for Low-Resource Natural Language Understanding Tasks

Arxiv

5+阅读 · 2019年8月27日

Feature Selection Library (MATLAB Toolbox)

Feature Selection Library (MATLAB Toolbox)

Arxiv

7+阅读 · 2018年8月6日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

微信扫码咨询专知VIP会员