预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt - 专知

会员服务 ·

0

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

2022 年 8 月 23 日 专知

从与上下文无关的词嵌入到与上下文相关的语言模型，预训练的文本表示将文本挖掘带入了一个新的时代: 通过在大规模文本语料库上对神经模型进行预处理，然后将其适应于特定任务的数据，可以有效地将通用语言特征和知识转移到目标应用中，并在许多文本挖掘任务中取得了显著的性能。不幸的是，在这种突出的预训练微调范式中存在着一个巨大的挑战:大型的预训练语言模型(PLM)通常需要大量的训练数据来对下游任务进行稳定的微调，而大量的人工注释的获取成本很高。

在本教程中，我们将介绍预训练文本表示的最新进展，以及它们在广泛的文本挖掘任务中的应用。我们专注于不需要大量人工标注的最小监督方法，包括(1)作为下游任务基础的自监督文本嵌入和预训练语言模型，(2)用于基本文本挖掘应用的无监督和远程监督方法，(3)用于从大量文本语料库中发现主题的无监督和种子引导方法，以及(4)用于文本分类和高级文本挖掘任务的弱监督方法。

介绍

第一部分: 科学信息提取与分析

第二部分: 科学信息搜索和证据挖掘

第三部分: 主题发现、文本分类和多维文本分析

摘要及未来方向

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“PTMR” 就可以获取《预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

预训练文本表示

预训练文本表示

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

专知会员服务

56+阅读 · 2022年8月20日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

专知会员服务

28+阅读 · 2022年5月25日

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

专知会员服务

67+阅读 · 2021年8月17日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【2022新书】文本与知识库问答系统，208页pdf

【2022新书】文本与知识库问答系统，208页pdf

专知

4+阅读 · 2022年11月14日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知

1+阅读 · 2022年10月17日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

《元强化学习》最新，70页ppt

《元强化学习》最新，70页ppt

专知

2+阅读 · 2022年9月16日

《自监督学习》最新报告，45页ppt

《自监督学习》最新报告，45页ppt

专知

1+阅读 · 2022年9月14日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知

1+阅读 · 2022年8月21日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知

2+阅读 · 2022年8月19日

谷歌大脑《自动强化学习》教程，81页ppt!

谷歌大脑《自动强化学习》教程，81页ppt!

专知

0+阅读 · 2022年8月15日

【DeepMind】结构化数据少样本学习，51页ppt

【DeepMind】结构化数据少样本学习，51页ppt

专知

1+阅读 · 2022年8月15日

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

专知

1+阅读 · 2022年5月25日

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

汉语句法分析中的自动歧义识别和分类问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

地理信息检索中语境的获取、推理及应用

国家自然科学基金

6+阅读 · 2012年12月31日

基于网络知识和人工知识的图像语义建模方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于计算智能的语义图像挖掘方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于乳腺X光图像的医学图像挖掘研究

国家自然科学基金

5+阅读 · 2011年12月31日

面向Web文本的因果知识获取方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

专家检索资源获取与学习排序方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

WEB智能搜索中的文本内容信任判定方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Causal Abstraction with Soft Interventions

Arxiv

0+阅读 · 2022年11月22日

Treatment Allocation under Uncertain Costs

Arxiv

0+阅读 · 2022年11月21日

Deanthropomorphising NLP: Can a Language Model Be Conscious?

Arxiv

0+阅读 · 2022年11月21日

Fixing Model Bugs with Natural Language Patches

Arxiv

0+阅读 · 2022年11月20日

FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning

Arxiv

11+阅读 · 2022年6月27日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey of Knowledge-Enhanced Text Generation

Arxiv

18+阅读 · 2020年10月9日

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Arxiv

17+阅读 · 2020年3月31日

已删除

Arxiv

32+阅读 · 2020年3月23日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

预训练文本表示

相关VIP内容

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

专知会员服务

56+阅读 · 2022年8月20日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

专知会员服务

28+阅读 · 2022年5月25日

如何挖掘医疗数据？看这份KDD2021《异构医疗数据挖掘》教程，附Slides

专知会员服务

47+阅读 · 2021年8月19日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

深度学习如何推理？看这份KDD2021《深度学习到深度推理》教程，附143页Slides

专知会员服务

67+阅读 · 2021年8月17日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【2022新书】文本与知识库问答系统，208页pdf

【2022新书】文本与知识库问答系统，208页pdf

专知

4+阅读 · 2022年11月14日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知

1+阅读 · 2022年10月17日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

《元强化学习》最新，70页ppt

《元强化学习》最新，70页ppt

专知

2+阅读 · 2022年9月16日

《自监督学习》最新报告，45页ppt

《自监督学习》最新报告，45页ppt

专知

1+阅读 · 2022年9月14日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知

1+阅读 · 2022年8月21日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知

2+阅读 · 2022年8月19日

谷歌大脑《自动强化学习》教程，81页ppt!

谷歌大脑《自动强化学习》教程，81页ppt!

专知

0+阅读 · 2022年8月15日

【DeepMind】结构化数据少样本学习，51页ppt

【DeepMind】结构化数据少样本学习，51页ppt

专知

1+阅读 · 2022年8月15日

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

【微软亚研ICASSP 2022 教程】神经文本语音合成，107页ppt

专知

1+阅读 · 2022年5月25日

相关基金

无指导汉语文本挖掘的统计模型和统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

汉语句法分析中的自动歧义识别和分类问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

地理信息检索中语境的获取、推理及应用

国家自然科学基金

6+阅读 · 2012年12月31日

基于网络知识和人工知识的图像语义建模方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于计算智能的语义图像挖掘方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于乳腺X光图像的医学图像挖掘研究

国家自然科学基金

5+阅读 · 2011年12月31日

面向Web文本的因果知识获取方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

专家检索资源获取与学习排序方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

WEB智能搜索中的文本内容信任判定方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Causal Abstraction with Soft Interventions

Arxiv

0+阅读 · 2022年11月22日

Treatment Allocation under Uncertain Costs

Arxiv

0+阅读 · 2022年11月21日

Deanthropomorphising NLP: Can a Language Model Be Conscious?

Arxiv

0+阅读 · 2022年11月21日

Fixing Model Bugs with Natural Language Patches

Arxiv

0+阅读 · 2022年11月20日

FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning

Arxiv

11+阅读 · 2022年6月27日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey of Knowledge-Enhanced Text Generation

Arxiv

18+阅读 · 2020年10月9日

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Arxiv

17+阅读 · 2020年3月31日

已删除

Arxiv

32+阅读 · 2020年3月23日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

大家都在搜

软件无线电

大型语言模型

久别重逢话双塔

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员