预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt - 专知VIP

会员服务 ·

8

KDD 2022 · 文本挖掘 · 预训练模型 · 文本表示 ·

2022 年 8 月 23 日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

从与上下文无关的词嵌入到与上下文相关的语言模型，预训练的文本表示将文本挖掘带入了一个新的时代: 通过在大规模文本语料库上对神经模型进行预处理，然后将其适应于特定任务的数据，可以有效地将通用语言特征和知识转移到目标应用中，并在许多文本挖掘任务中取得了显著的性能。不幸的是，在这种突出的预训练微调范式中存在着一个巨大的挑战:大型的预训练语言模型(PLM)通常需要大量的训练数据来对下游任务进行稳定的微调，而大量的人工注释的获取成本很高。

在本教程中，我们将介绍预训练文本表示的最新进展，以及它们在广泛的文本挖掘任务中的应用。我们专注于不需要大量人工标注的最小监督方法，包括**(1)作为下游任务基础的自监督文本嵌入和预训练语言模型，(2)用于基本文本挖掘应用的无监督和远程监督方法，(3)用于从大量文本语料库中发现主题的无监督和种子引导方法，以及(4)用于文本分类和高级文本挖掘任务的弱监督方法**。

介绍第一部分: 科学信息提取与分析第二部分: 科学信息搜索和证据挖掘第三部分: 主题发现、文本分类和多维文本分析摘要及未来方向

成为VIP会员查看完整内容

25

相关内容

KDD 2022

国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称KDD) 是数据挖掘领域的顶级会议。第28届SIGKDD会议将于8月14日至18日在华盛顿举行。据统计，今年共有1695篇有效投稿，其中254篇论文被接收，接收率为14.98%，Applied Data Science Track录用率为25.90%。

【NAACL2022】信息提取前沿

【NAACL2022】信息提取前沿

专知会员服务

59+阅读 · 2022年7月11日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

专知会员服务

20+阅读 · 2022年4月25日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知会员服务

53+阅读 · 2022年2月28日

【计算所&清华等新书】预训练方法信息检索，109页pdf

【计算所&清华等新书】预训练方法信息检索，109页pdf

专知会员服务

65+阅读 · 2021年11月30日

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

专知会员服务

67+阅读 · 2021年8月17日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

专知会员服务

75+阅读 · 2021年7月13日

如何构建多模态鲁棒信息提取系统？NAACL2022《信息提取前沿》教程，261页ppt

如何构建多模态鲁棒信息提取系统？NAACL2022《信息提取前沿》教程，261页ppt

专知

2+阅读 · 2022年7月11日

KDD 2022 | 图“预训练、提示、微调”范式下的图神经网络泛化框架

KDD 2022 | 图“预训练、提示、微调”范式下的图神经网络泛化框架

PaperWeekly

3+阅读 · 2022年6月27日

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

专知

2+阅读 · 2022年4月25日

中科院自动化所：最新视觉-语言预训练综述

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知

1+阅读 · 2022年2月28日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向不平衡样本的流形学习故障诊断方法

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于乳腺X光图像的医学图像挖掘研究

国家自然科学基金

5+阅读 · 2011年12月31日

面向Web文本的因果知识获取方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于特征发现的数据流概念漂移问题研究

国家自然科学基金

2+阅读 · 2009年12月31日

电网参数分检式估计方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向开放领域的自动关系抽取技术研究

国家自然科学基金

5+阅读 · 2008年12月31日

InferES : A Natural Language Inference Corpus for Spanish Featuring Negation-Based Contrastive and Adversarial Examples

InferES : A Natural Language Inference Corpus for Spanish Featuring Negation-Based Contrastive and Adversarial Examples

Arxiv

0+阅读 · 2022年10月6日

Knowledge Unlearning for Mitigating Privacy Risks in Language Models

Arxiv

0+阅读 · 2022年10月4日

Context-Tuning: Learning Contextualized Prompts for Natural Language Generation

Arxiv

0+阅读 · 2022年10月3日

Draw Me a Flower: Processing and Grounding Abstraction in Natural Language

Arxiv

0+阅读 · 2022年9月30日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

已删除

Arxiv

32+阅读 · 2020年3月23日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Text Classification Algorithms: A Survey

Arxiv

15+阅读 · 2019年6月25日

VIP会员

相关主题

预训练模型

相关VIP内容

【NAACL2022】信息提取前沿

【NAACL2022】信息提取前沿

专知会员服务

59+阅读 · 2022年7月11日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

专知会员服务

20+阅读 · 2022年4月25日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知会员服务

53+阅读 · 2022年2月28日

【计算所&清华等新书】预训练方法信息检索，109页pdf

【计算所&清华等新书】预训练方法信息检索，109页pdf

专知会员服务

65+阅读 · 2021年11月30日

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

专知会员服务

67+阅读 · 2021年8月17日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

70+阅读 · 2021年8月2日

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

事件研究进展到哪？ACL2021这份《事件自然语言处理》教程必看！附269页ppt

专知会员服务

75+阅读 · 2021年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

如何构建多模态鲁棒信息提取系统？NAACL2022《信息提取前沿》教程，261页ppt

如何构建多模态鲁棒信息提取系统？NAACL2022《信息提取前沿》教程，261页ppt

专知

2+阅读 · 2022年7月11日

KDD 2022 | 图“预训练、提示、微调”范式下的图神经网络泛化框架

KDD 2022 | 图“预训练、提示、微调”范式下的图神经网络泛化框架

PaperWeekly

3+阅读 · 2022年6月27日

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

如何挖掘科学知识？UIUC最新WWW22教程-科学文献数据挖掘：现代自然语言处理技术:任务、数据和工具

专知

2+阅读 · 2022年4月25日

中科院自动化所：最新视觉-语言预训练综述

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知

1+阅读 · 2022年2月28日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

相关基金

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

11+阅读 · 2015年12月31日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向不平衡样本的流形学习故障诊断方法

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于乳腺X光图像的医学图像挖掘研究

国家自然科学基金

5+阅读 · 2011年12月31日

面向Web文本的因果知识获取方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于特征发现的数据流概念漂移问题研究

国家自然科学基金

2+阅读 · 2009年12月31日

电网参数分检式估计方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向开放领域的自动关系抽取技术研究

国家自然科学基金

5+阅读 · 2008年12月31日

相关论文

InferES : A Natural Language Inference Corpus for Spanish Featuring Negation-Based Contrastive and Adversarial Examples

InferES : A Natural Language Inference Corpus for Spanish Featuring Negation-Based Contrastive and Adversarial Examples

Arxiv

0+阅读 · 2022年10月6日

Knowledge Unlearning for Mitigating Privacy Risks in Language Models

Arxiv

0+阅读 · 2022年10月4日

Context-Tuning: Learning Contextualized Prompts for Natural Language Generation

Arxiv

0+阅读 · 2022年10月3日

Draw Me a Flower: Processing and Grounding Abstraction in Natural Language

Arxiv

0+阅读 · 2022年9月30日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

已删除

Arxiv

32+阅读 · 2020年3月23日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Text Classification Algorithms: A Survey

Arxiv

15+阅读 · 2019年6月25日

微信扫码咨询专知VIP会员