从与上下文无关的词嵌入到与上下文相关的语言模型,预训练的文本表示将文本挖掘带入了一个新的时代: 通过在大规模文本语料库上对神经模型进行预处理,然后将其适应于特定任务的数据,可以有效地将通用语言特征和知识转移到目标应用中,并在许多文本挖掘任务中取得了显著的性能。不幸的是,在这种突出的预训练微调范式中存在着一个巨大的挑战:大型的预训练语言模型(PLM)通常需要大量的训练数据来对下游任务进行稳定的微调,而大量的人工注释的获取成本很高。

在本教程中,我们将介绍预训练文本表示的最新进展,以及它们在广泛的文本挖掘任务中的应用。我们专注于不需要大量人工标注的最小监督方法,包括**(1)作为下游任务基础的自监督文本嵌入和预训练语言模型,(2)用于基本文本挖掘应用的无监督和远程监督方法,(3)用于从大量文本语料库中发现主题的无监督和种子引导方法,以及(4)用于文本分类和高级文本挖掘任务的弱监督方法**。

介绍 第一部分: 科学信息提取与分析 第二部分: 科学信息搜索和证据挖掘 第三部分: 主题发现、文本分类和多维文本分析 摘要及未来方向

成为VIP会员查看完整内容
24

相关内容

国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称KDD) 是数据挖掘领域的顶级会议。第28届SIGKDD会议将于8月14日至18日在华盛顿举行。据统计,今年共有1695篇有效投稿,其中254篇论文被接收,接收率为14.98%,Applied Data Science Track录用率为25.90%。
【NAACL2022】信息提取前沿
专知会员服务
58+阅读 · 2022年7月11日
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
64+阅读 · 2021年11月30日
中科院自动化所:最新视觉-语言预训练综述
PaperWeekly
3+阅读 · 2022年3月1日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
19+阅读 · 2020年12月23日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2019年6月25日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员