【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用 - 专知VIP

会员服务 ·

15

WWW 2023 · 预训练 · 文本挖掘 · 预训练语言模型 ·

2023 年 5 月 17 日

【WWW2023教程】将网络规模的文本转化为知识:将预训练表示转化为文本挖掘应用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

文本数据在网络上无处不在且海量:新闻报道、社交媒体帖子、维基百科文章等每天都在网上创建和更新。虽然它们包含丰富的信息和知识，但在文本密集型应用中有效利用它们仍然是一个公开的挑战。预训练语言模型(PLM)的最新进展已经彻底改变了文本挖掘和处理:通过在从网络获得的大规模文本语料库上预训练神经架构，然后将其表示转移到特定任务的数据中，可以有效利用在网络规模语料库中编码的知识，从而显著提高下游任务的性能。PLM最常见的自适应方法是预训练-微调范式，其中PLM在下游任务标记的数据上进行进一步训练。然而，这种范式的主要挑战是，对PLM的全监督微调通常需要大量的人工标注，而在实践中获取这些标注是昂贵的。

在本教程中，我们将介绍从网络规模的语料库中学习的预训练文本表示的最新进展，以及它们在广泛的文本挖掘任务中的应用。本文专注于不需要大量人工标注的弱监督方法，包括(1)作为下游任务基础的预训练语言模型，(2)用于从大规模文本语料库中发现主题的无监督和种子引导方法，以及(3)用于文本分类和高级文本挖掘任务的弱监督方法。

成为VIP会员查看完整内容

29

相关内容

WWW 2023

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

专知会员服务

57+阅读 · 2023年2月20日

【干货书】基于机器学习的文本挖掘：原理和技术，366页pdf

【干货书】基于机器学习的文本挖掘：原理和技术，366页pdf

专知会员服务

67+阅读 · 2023年1月7日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

25+阅读 · 2022年8月23日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

专知会员服务

29+阅读 · 2022年8月12日

【KDD2022】海量文本语料库中的无监督关键事件检测

【KDD2022】海量文本语料库中的无监督关键事件检测

专知会员服务

33+阅读 · 2022年6月13日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知会员服务

53+阅读 · 2022年2月28日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

医疗多模态预训练：如何利用非天然配对的医疗图像和文本做对比学习？

医疗多模态预训练：如何利用非天然配对的医疗图像和文本做对比学习？

PaperWeekly

7+阅读 · 2022年10月25日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知

0+阅读 · 2022年8月23日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知

1+阅读 · 2022年8月21日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知

0+阅读 · 2022年8月18日

【KDD2022】掩码与推理:用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理:用于复杂逻辑查询的预训练知识图谱Transformers

专知

1+阅读 · 2022年8月12日

NAACL 2022 | TAMT：通过下游任务无关掩码训练搜索可迁移的BERT子网络

NAACL 2022 | TAMT：通过下游任务无关掩码训练搜索可迁移的BERT子网络

PaperWeekly

0+阅读 · 2022年6月26日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向网络百科的知识抽取研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于图结构的迁移学习在文本倾向性分析中的应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

考虑用户浏览行为的网络短文本推荐的研究

国家自然科学基金

3+阅读 · 2012年12月31日

互联网藏文文本资源挖掘及语料抽取关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于网络异构文本数据融合的热点话题发现及其内容摘要研究

国家自然科学基金

0+阅读 · 2012年12月31日

无线传感器网络不依赖位置信息的拓扑识别与构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于动作概念的本体知识库及在文本处理上的应用

国家自然科学基金

7+阅读 · 2012年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

Efficient Bounds and Estimates for Canonical Angles in Randomized Subspace Approximations

Arxiv

0+阅读 · 2023年7月2日

Exploring Diffusion Models for Unsupervised Video Anomaly Detection

Arxiv

0+阅读 · 2023年7月2日

Truth Discovery in Sequence Labels from Crowds

Arxiv

0+阅读 · 2023年7月1日

Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised Person Re-Identification and Text Authorship Attribution

Arxiv

0+阅读 · 2023年6月30日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

474+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

专知会员服务

57+阅读 · 2023年2月20日

【干货书】基于机器学习的文本挖掘：原理和技术，366页pdf

【干货书】基于机器学习的文本挖掘：原理和技术，366页pdf

专知会员服务

67+阅读 · 2023年1月7日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知会员服务

25+阅读 · 2022年8月23日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理: 用于复杂逻辑查询的预训练知识图谱Transformers

专知会员服务

29+阅读 · 2022年8月12日

【KDD2022】海量文本语料库中的无监督关键事件检测

【KDD2022】海量文本语料库中的无监督关键事件检测

专知会员服务

33+阅读 · 2022年6月13日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知会员服务

53+阅读 · 2022年2月28日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物：战略打击》最新条令

《高能激光武器》22页slides

军事前沿模型

《面向小型无人机或无人飞行器的创新雷达探测与人工智能分类技术》263页

相关资讯

医疗多模态预训练：如何利用非天然配对的医疗图像和文本做对比学习？

医疗多模态预训练：如何利用非天然配对的医疗图像和文本做对比学习？

PaperWeekly

7+阅读 · 2022年10月25日

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

预训练如何用于文本挖掘？【KDD2022教程】自适应预训练文本表示与挖掘，206页ppt

专知

0+阅读 · 2022年8月23日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知

1+阅读 · 2022年8月21日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知

0+阅读 · 2022年8月18日

【KDD2022】掩码与推理:用于复杂逻辑查询的预训练知识图谱Transformers

【KDD2022】掩码与推理:用于复杂逻辑查询的预训练知识图谱Transformers

专知

1+阅读 · 2022年8月12日

NAACL 2022 | TAMT：通过下游任务无关掩码训练搜索可迁移的BERT子网络

NAACL 2022 | TAMT：通过下游任务无关掩码训练搜索可迁移的BERT子网络

PaperWeekly

0+阅读 · 2022年6月26日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向网络百科的知识抽取研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于图结构的迁移学习在文本倾向性分析中的应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

考虑用户浏览行为的网络短文本推荐的研究

国家自然科学基金

3+阅读 · 2012年12月31日

互联网藏文文本资源挖掘及语料抽取关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于网络异构文本数据融合的热点话题发现及其内容摘要研究

国家自然科学基金

0+阅读 · 2012年12月31日

无线传感器网络不依赖位置信息的拓扑识别与构建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于动作概念的本体知识库及在文本处理上的应用

国家自然科学基金

7+阅读 · 2012年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Efficient Bounds and Estimates for Canonical Angles in Randomized Subspace Approximations

Arxiv

0+阅读 · 2023年7月2日

Exploring Diffusion Models for Unsupervised Video Anomaly Detection

Arxiv

0+阅读 · 2023年7月2日

Truth Discovery in Sequence Labels from Crowds

Arxiv

0+阅读 · 2023年7月1日

Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised Person Re-Identification and Text Authorship Attribution

Arxiv

0+阅读 · 2023年6月30日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

474+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

微信扫码咨询专知VIP会员