文本数据在网络上无处不在且海量:新闻报道、社交媒体帖子、维基百科文章等每天都在网上创建和更新。虽然它们包含丰富的信息和知识,但在文本密集型应用中有效利用它们仍然是一个公开的挑战。预训练语言模型(PLM)的最新进展已经彻底改变了文本挖掘和处理:通过在从网络获得的大规模文本语料库上预训练神经架构,然后将其表示转移到特定任务的数据中,可以有效利用在网络规模语料库中编码的知识,从而显著提高下游任务的性能。PLM最常见的自适应方法是预训练-微调范式,其中PLM在下游任务标记的数据上进行进一步训练。然而,这种范式的主要挑战是,对PLM的全监督微调通常需要大量的人工标注,而在实践中获取这些标注是昂贵的。

在本教程中,我们将介绍从网络规模的语料库中学习的预训练文本表示的最新进展,以及它们在广泛的文本挖掘任务中的应用。本文专注于不需要大量人工标注的弱监督方法,包括(1)作为下游任务基础的预训练语言模型,(2)用于从大规模文本语料库中发现主题的无监督和种子引导方法,以及(3)用于文本分类和高级文本挖掘任务的弱监督方法。

成为VIP会员查看完整内容
28

相关内容

【KDD2022教程】Transformers多模态数据分类,41页ppt
专知会员服务
84+阅读 · 2022年8月18日
【KDD2022】海量文本语料库中的无监督关键事件检测
专知会员服务
32+阅读 · 2022年6月13日
专知会员服务
16+阅读 · 2021年8月24日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年7月1日
A Survey of Large Language Models
Arxiv
412+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
23+阅读 · 2020年9月16日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员