【WSDM 2021】面向信息检索的预训练语言模型 - 专知

会员服务 ·

0

【WSDM 2021】面向信息检索的预训练语言模型

2020 年 11 月 29 日 专知

在大规模无标签文本上预训练语言模型，然后在下游任务微调的学习模式已经在自然语言处理（NLP）领域取得了广泛的应用。尽管当前的预训练语言模型在大部分NLP任务上取得了显著的进展，然而，研究人员发现当预训练任务的目标更接近于下游任务的目标时，模型在下游任务上能取得更大幅度的性能提升，例如针对文本摘要设计的Gap Sentence Prediciton预训练任务[1]、面向机器阅读理解设计的Span Selection预训练任务[2]、以及为情感分析设计的Label-aware MLM预训练任务[3]，都取得了相较于原始预训练语言模型更好的性能。近年来，在信息检索（IR）中，预训练语言模型在文档排序任务上取得了一定的效果，然而，如何设计更符合信息检索需求的预训练目标，是一个值得探索的新领域。

在这项工作中，我们提出了一个新颖的针对信息检索的预训练任务，叫做“代表词预测”任务（Representative Words Prediction）。这个任务是受到了IR中经典统计语言模型——查询似然模型的启发，在查询似然模型的基本假设中，查询被认为是由“理想”文档“生成”出来的具有代表性的文本，因此通过贝叶斯定理推导，查询的相关性强度可由其代表性或者说是其似然值表征。鉴于此，我们就构建了这样一个新的代表词预测任务（简称为ROP任务），具体来说，对于一个给定的文档，我们根据文档语言模型（狄利克雷平滑的多项式语言模型）采样出该文档的代表性词集，然后预训练语言模型使其能够有效地区分出其中哪些词项更具有代表性。为了同时建模查询和文档内容理解以及二者关系的预测，我们结合ROP与MLM一起在无标签的文档语料上进行预训练，我们把通过这种预训练方式得到的语言模型命名为PROP。

https://www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“PROP” 就可以获取《【WSDM 2021】面向信息检索的预训练语言模型》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

预训练语言模型

预训练语言模型

近年来，预训练模型（例如ELMo、GPT、BERT和XLNet等）的快速发展大幅提升了诸多NLP任务的整体水平，同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型，它的特点包括：第一，可以使用大规模无标注纯文本语料进行训练；第二，可以用于各类下游NLP任务，不是针对某项定制的，但以后可用在下游NIP任务上，你不需要为下游任务专门设计一种神经网络，或者提供一种结构，直接在几种给定的固定框架中选择一种进行 fine-tune，就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【EMNLP2020】高性能自然语言处理，274页ppt详述最新Transformer等技术进展

【EMNLP2020】高性能自然语言处理，274页ppt详述最新Transformer等技术进展

专知会员服务

61+阅读 · 2020年11月21日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

面向知识图谱的信息抽取

专知会员服务

200+阅读 · 2020年10月14日

CIKM 2020 |自动无偏排序学习中的多元函数性质分析

专知会员服务

7+阅读 · 2020年9月21日

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

专知会员服务

91+阅读 · 2020年7月23日

【ACL2020】基于图神经网络的文本分类新方法

【ACL2020】基于图神经网络的文本分类新方法

专知会员服务

69+阅读 · 2020年7月12日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

专知会员服务

76+阅读 · 2019年11月7日

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

专知

5+阅读 · 2020年10月17日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【ACL2020】基于图神经网络的文本分类新方法

【ACL2020】基于图神经网络的文本分类新方法

专知

22+阅读 · 2020年7月12日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

35+阅读 · 2020年5月19日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

专知

78+阅读 · 2019年11月6日

39页《迁移学习自然语言生成》PPT

39页《迁移学习自然语言生成》PPT

专知

9+阅读 · 2019年2月13日

Regime Switching Bandits

Arxiv

0+阅读 · 2021年2月1日

Parameter estimation for Gibbs distributions

Arxiv

0+阅读 · 2021年1月30日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Arxiv

4+阅读 · 2018年3月22日

Application of Rényi and Tsallis Entropies to Topic Modeling Optimization

Arxiv

6+阅读 · 2018年2月28日

DeepWalk: Online Learning of Social Representations

Arxiv

8+阅读 · 2014年6月27日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【EMNLP2020】高性能自然语言处理，274页ppt详述最新Transformer等技术进展

【EMNLP2020】高性能自然语言处理，274页ppt详述最新Transformer等技术进展

专知会员服务

61+阅读 · 2020年11月21日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

面向知识图谱的信息抽取

专知会员服务

200+阅读 · 2020年10月14日

CIKM 2020 |自动无偏排序学习中的多元函数性质分析

专知会员服务

7+阅读 · 2020年9月21日

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

【SIGIR 2020】基于协同注意力机制的知识增强推荐模型

专知会员服务

91+阅读 · 2020年7月23日

【ACL2020】基于图神经网络的文本分类新方法

【ACL2020】基于图神经网络的文本分类新方法

专知会员服务

69+阅读 · 2020年7月12日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

专知会员服务

76+阅读 · 2019年11月7日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

NLPCC 2020《预训练语言模型回顾》讲义下载，156页PPT

专知

5+阅读 · 2020年10月17日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【ACL2020】基于图神经网络的文本分类新方法

【ACL2020】基于图神经网络的文本分类新方法

专知

22+阅读 · 2020年7月12日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

35+阅读 · 2020年5月19日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

【EMNLP2019教程】图神经网络GNN的自然语言处理，附315页PPT及作者博士论文下载

专知

78+阅读 · 2019年11月6日

39页《迁移学习自然语言生成》PPT

39页《迁移学习自然语言生成》PPT

专知

9+阅读 · 2019年2月13日

相关论文

Regime Switching Bandits

Arxiv

0+阅读 · 2021年2月1日

Parameter estimation for Gibbs distributions

Arxiv

0+阅读 · 2021年1月30日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Arxiv

4+阅读 · 2018年3月22日

Application of Rényi and Tsallis Entropies to Topic Modeling Optimization

Arxiv

6+阅读 · 2018年2月28日

DeepWalk: Online Learning of Social Representations

Arxiv

8+阅读 · 2014年6月27日

大家都在搜

国防科技创新

大型语言模型

久别重逢话双塔

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员