在大规模无标签文本上预训练语言模型,然后在下游任务微调的学习模式已经在自然语言处理(NLP)领域取得了广泛的应用。尽管当前的预训练语言模型在大部分NLP任务上取得了显著的进展,然而,研究人员发现当预训练任务的目标更接近于下游任务的目标时,模型在下游任务上能取得更大幅度的性能提升,例如针对文本摘要设计的Gap Sentence Prediciton预训练任务[1]、面向机器阅读理解设计的Span Selection预训练任务[2]、以及为情感分析设计的Label-aware MLM预训练任务[3],都取得了相较于原始预训练语言模型更好的性能。近年来,在信息检索(IR)中,预训练语言模型在文档排序任务上取得了一定的效果,然而,如何设计更符合信息检索需求的预训练目标,是一个值得探索的新领域。

在这项工作中,我们提出了一个新颖的针对信息检索的预训练任务,叫做“代表词预测”任务(Representative Words Prediction)。这个任务是受到了IR中经典统计语言模型——查询似然模型的启发,在查询似然模型的基本假设中,查询被认为是由“理想”文档“生成”出来的具有代表性的文本,因此通过贝叶斯定理推导,查询的相关性强度可由其代表性或者说是其似然值表征。鉴于此,我们就构建了这样一个新的代表词预测任务(简称为ROP任务),具体来说,对于一个给定的文档,我们根据文档语言模型(狄利克雷平滑的多项式语言模型)采样出该文档的代表性词集,然后预训练语言模型使其能够有效地区分出其中哪些词项更具有代表性。为了同时建模查询和文档内容理解以及二者关系的预测,我们结合ROP与MLM一起在无标签的文档语料上进行预训练,我们把通过这种预训练方式得到的语言模型命名为PROP。

https://www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

成为VIP会员查看完整内容
34

相关内容

信息检索( Information Retrieval )指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标:准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
9+阅读 · 2020年11月16日
彭博新书《知识图谱: 一种信息检索视角》,159页pdf
专知会员服务
146+阅读 · 2020年11月1日
最新《知识图谱表示学习补全》综述论文,16页pdf
专知会员服务
65+阅读 · 2020年10月29日
【COLING2020】无监督依存解析的综述论文,12页pdf
专知会员服务
15+阅读 · 2020年10月27日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
61+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
THUIR师生论文获WSDM 2020录用
THUIR
7+阅读 · 2019年10月11日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
赛尔推荐 | 第3期
哈工大SCIR
7+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
9+阅读 · 2020年11月16日
彭博新书《知识图谱: 一种信息检索视角》,159页pdf
专知会员服务
146+阅读 · 2020年11月1日
最新《知识图谱表示学习补全》综述论文,16页pdf
专知会员服务
65+阅读 · 2020年10月29日
【COLING2020】无监督依存解析的综述论文,12页pdf
专知会员服务
15+阅读 · 2020年10月27日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
61+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
111+阅读 · 2020年4月23日
相关资讯
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
THUIR师生论文获WSDM 2020录用
THUIR
7+阅读 · 2019年10月11日
论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型
开放知识图谱
31+阅读 · 2019年4月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
赛尔推荐 | 第3期
哈工大SCIR
7+阅读 · 2018年3月28日
微信扫码咨询专知VIP会员