【CIKM2021】超链接预训练信息检索 - 专知VIP

会员服务 ·

3

预训练语言模型 · 信息检索 · CIKM 2021 ·

2021 年 8 月 24 日

【CIKM2021】超链接预训练信息检索

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文概述：为预训练语言模型设计与下游任务更加接近的预训练任务与目标，可以在微调阶段获得更好的效果，尤其是在信息检索领域。现有的面向信息检索的预训练方法试图引入一些弱监督信号，例如基于查询似然的采样，来从海量文本语料中生成伪查询-文档对，从而完成对预训练模型的监督训练。但是，这些信号严重依赖于具体的采样算法。例如，查询似然模型可能在构建预训练数据时带来严重的噪声。因此，在本文中，我们提出利用语料中大规模的超链接与锚文本，来完成面向的信息检索的预训练语言模型。超链通常是由网络管理员或用户人工添加，且能很好的总结对应文档。因此，相比现有的基于采样算法的模型，超链可以帮助构建更加准确和可靠的预训练样本。考虑到下游信息检索任务的不同角度，我们设计了四个基于超链的预训练任务，包括代表性查询预测，查询消歧建模，代表性文档预测，锚文本共线建模，从而让模型学习相关性建模能力。连同掩码语言模型(MLM)，我们使用Pair-wise损失函数对Transformer模型进行预训练。为了评价我们提出的预训练方法的有效性，我们在两个信息检索的数据集上进行了微调，包括MSMARCO Document Ranking数据集以及TREC DL 2019数据集。实验结果证明，我们的模型相比现有最好的模型有明显的效果提升。

https://arxiv.org/pdf/2108.09346.pdf

成为VIP会员查看完整内容

17

相关内容

预训练语言模型

预训练语言模型

近年来，预训练模型（例如ELMo、GPT、BERT和XLNet等）的快速发展大幅提升了诸多NLP任务的整体水平，同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型，它的特点包括：第一，可以使用大规模无标注纯文本语料进行训练；第二，可以用于各类下游NLP任务，不是针对某项定制的，但以后可用在下游NIP任务上，你不需要为下游任务专门设计一种神经网络，或者提供一种结构，直接在几种给定的固定框架中选择一种进行 fine-tune，就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CIKM2021】基于多关系图的异构多任务学习社区问答

专知会员服务

13+阅读 · 2021年10月6日

ACL2021 | 知识对比：基于外部知识的图神经虚假新闻检测

专知会员服务

34+阅读 · 2021年9月14日

【CIKM2021】用户行为序列对比学习的上下文感知文档排序

专知会员服务

21+阅读 · 2021年8月30日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020】端到端语音翻译的课程预训练

【ACL2020】端到端语音翻译的课程预训练

专知会员服务

6+阅读 · 2020年7月2日

pytorch中文语言模型bert预训练代码

pytorch中文语言模型bert预训练代码

AINLP

3+阅读 · 2020年7月22日

非自回归也能预训练：基于插入的硬约束生成模型预训练方法

非自回归也能预训练：基于插入的硬约束生成模型预训练方法

PaperWeekly

5+阅读 · 2020年5月13日

【GNN】R-GCN：GCN 在知识图谱中的应用

【GNN】R-GCN：GCN 在知识图谱中的应用

深度学习自然语言处理

11+阅读 · 2020年5月4日

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

专知

15+阅读 · 2020年4月28日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

College Student Retention Risk Analysis From Educational Database using Multi-Task Multi-Modal Neural Fusion

Arxiv

0+阅读 · 2021年9月11日

Disentangling Representations of Text by Masking Transformers

Arxiv

1+阅读 · 2021年9月10日

A Semi-Personalized System for User Cold Start Recommendation on Music Streaming Apps

Arxiv

11+阅读 · 2021年6月7日

Future-Aware Diverse Trends Framework for Recommendation

Arxiv

3+阅读 · 2020年11月1日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

A Context-Aware Citation Recommendation Model with BERT and Graph Convolutional Networks

A Context-Aware Citation Recommendation Model with BERT and Graph Convolutional Networks

Arxiv

9+阅读 · 2019年3月15日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Graph-Based Recommendation System

Graph-Based Recommendation System

Arxiv

4+阅读 · 2018年7月31日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【CIKM2021】基于多关系图的异构多任务学习社区问答

专知会员服务

13+阅读 · 2021年10月6日

ACL2021 | 知识对比：基于外部知识的图神经虚假新闻检测

专知会员服务

34+阅读 · 2021年9月14日

【CIKM2021】用户行为序列对比学习的上下文感知文档排序

专知会员服务

21+阅读 · 2021年8月30日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

42+阅读 · 2021年6月6日

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

CIKM 2020 | 序列推荐预训练：基于互信息最大化的自监督学习

专知会员服务

46+阅读 · 2020年9月17日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020】端到端语音翻译的课程预训练

【ACL2020】端到端语音翻译的课程预训练

专知会员服务

6+阅读 · 2020年7月2日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能驾驶：旧理念与新技术

美军手册：战术心理战分遣队与小组指南 | 68页

军事机器学习设计：关于开发自动化任务摘要系统的梯次化设计科学研究 | 2025最新93页

美国防部自主系统研制试验与鉴定指南 | 2025年最新200页

相关资讯

pytorch中文语言模型bert预训练代码

pytorch中文语言模型bert预训练代码

AINLP

3+阅读 · 2020年7月22日

非自回归也能预训练：基于插入的硬约束生成模型预训练方法

非自回归也能预训练：基于插入的硬约束生成模型预训练方法

PaperWeekly

5+阅读 · 2020年5月13日

【GNN】R-GCN：GCN 在知识图谱中的应用

【GNN】R-GCN：GCN 在知识图谱中的应用

深度学习自然语言处理

11+阅读 · 2020年5月4日

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

专知

15+阅读 · 2020年4月28日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关论文

College Student Retention Risk Analysis From Educational Database using Multi-Task Multi-Modal Neural Fusion

Arxiv

0+阅读 · 2021年9月11日

Disentangling Representations of Text by Masking Transformers

Arxiv

1+阅读 · 2021年9月10日

A Semi-Personalized System for User Cold Start Recommendation on Music Streaming Apps

Arxiv

11+阅读 · 2021年6月7日

Future-Aware Diverse Trends Framework for Recommendation

Arxiv

3+阅读 · 2020年11月1日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

A Context-Aware Citation Recommendation Model with BERT and Graph Convolutional Networks

A Context-Aware Citation Recommendation Model with BERT and Graph Convolutional Networks

Arxiv

9+阅读 · 2019年3月15日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Graph-Based Recommendation System

Graph-Based Recommendation System

Arxiv

4+阅读 · 2018年7月31日

微信扫码咨询专知VIP会员