【SIGIR2021】使用难样本优化向量检索模型 - 专知

会员服务 ·

0

【SIGIR2021】使用难样本优化向量检索模型

2021 年 4 月 22 日 专知

博士生詹靖涛（导师：马少平）为第一作者的长文“Optimizing Dense Retrieval Model Training with Hard Negatives”（作者：詹靖涛，毛佳昕，刘奕群，郭嘉丰，张敏，马少平）。

内容简介：

排序一直是信息检索研究的热点之一。几十年来，关键词匹配（lexical matching）一直主导着检索技术，但它不能考虑语义信号。近年来，随着表示学习的发展，许多研究者转向向量检索（Dense Retrieval）模型以获得更好的排序性能。尽管已有的一些向量检索模型已经取得了很好的结果，其性能的提高很大程度上依赖负采样技术。然而，一些负采样技术效率较低，难以应用到实际中。同时对于为什么一些负采样技术可以提升性能，目前仍然缺乏理论分析。

我们从理论上分析了不同的负采样技术，即随机负采样（random negative sampling）和静态难例负采样（static hard negative sampling）。我们发现这两种负采样技术都存在着不足或风险：前者会导致一些较为困难的查询主导了训练过程，使得模型不能有效地对TopK结果进行排序；后者的优化目标有偏，训练过程不够稳定。我们设计实验验证了理论的分析。

针对这些局限性，本文提出了STAR和ADORE两种新的DR模型训练技术。STAR把静态难负例与随机负例相结合，在优化TopK排序的同时稳定训练。ADORE用动态难负例（dynamic hard negatives）来训练查询编码器，在训练中直接优化排序性能。我们在Benchmark数据集上进行实验。实验结果表明这两种训练策略都十分有效，他们的结合能够得到最佳的排序结果，显著优于强基线。同时这两种训练技术的训练效率也显著优于之前性能较强的基线。

表：TREC DL Track上各模型排序性能的对比

https://www.zhuanzhi.ai/paper/fae614eee2fb11bc71a725cc0936103b

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ODRM” 就可以获取《【SIGIR2021】使用难样本优化向量检索模型》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

4

相关内容

向量检索

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CIKM2020-阿里】在线序列广告的用户隐藏状态推断

【CIKM2020-阿里】在线序列广告的用户隐藏状态推断

专知会员服务

25+阅读 · 2020年9月5日

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

专知会员服务

32+阅读 · 2020年7月27日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知会员服务

23+阅读 · 2020年6月2日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知

9+阅读 · 2020年8月28日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知

6+阅读 · 2020年6月2日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知

4+阅读 · 2020年3月23日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

RikoNet: A Novel Anime Recommendation Engine

RikoNet: A Novel Anime Recommendation Engine

Arxiv

0+阅读 · 2021年6月24日

CPM-2: Large-scale Cost-effective Pre-trained Language Models

Arxiv

0+阅读 · 2021年6月23日

A Clustering-based Framework for Classifying Data Streams

A Clustering-based Framework for Classifying Data Streams

Arxiv

0+阅读 · 2021年6月22日

Pre-Trained Models: Past, Present and Future

Arxiv

19+阅读 · 2021年6月15日

Optimizing Dense Retrieval Model Training with Hard Negatives

Arxiv

5+阅读 · 2021年4月16日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Learning to Weight for Text Classification

Learning to Weight for Text Classification

Arxiv

8+阅读 · 2019年3月28日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

Inverse Reinforcement Learning via Deep Gaussian Process

Arxiv

3+阅读 · 2017年5月4日

VIP会员

相关主题

相关VIP内容

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架

专知会员服务

63+阅读 · 2021年4月21日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CIKM2020-阿里】在线序列广告的用户隐藏状态推断

【CIKM2020-阿里】在线序列广告的用户隐藏状态推断

专知会员服务

25+阅读 · 2020年9月5日

【KDD2020】稀疏优化的块分解算法

专知会员服务

21+阅读 · 2020年9月2日

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

【KDD 2020】Facebook搜索中语义Embedding检索技术的实战经验总结

专知会员服务

32+阅读 · 2020年7月27日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知会员服务

23+阅读 · 2020年6月2日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

三维高斯泼溅应用综述：分割、编辑与生成

《多智能体不确定环境追逃博弈研究》216页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

现代战争"杀伤区"理论：空间尺度与结构特征、控制手段与毁伤机制、生存策略与战线转移

相关资讯

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知

9+阅读 · 2020年8月28日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

【SIGIR2020】用于冷启动推荐的内容感知神经哈希

专知

6+阅读 · 2020年6月2日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知

4+阅读 · 2020年3月23日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

基于图卷积文本模型的跨模态信息检索

基于图卷积文本模型的跨模态信息检索

专知

9+阅读 · 2019年8月3日

相关论文

RikoNet: A Novel Anime Recommendation Engine

RikoNet: A Novel Anime Recommendation Engine

Arxiv

0+阅读 · 2021年6月24日

CPM-2: Large-scale Cost-effective Pre-trained Language Models

Arxiv

0+阅读 · 2021年6月23日

A Clustering-based Framework for Classifying Data Streams

A Clustering-based Framework for Classifying Data Streams

Arxiv

0+阅读 · 2021年6月22日

Pre-Trained Models: Past, Present and Future

Arxiv

19+阅读 · 2021年6月15日

Optimizing Dense Retrieval Model Training with Hard Negatives

Arxiv

5+阅读 · 2021年4月16日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Learning to Weight for Text Classification

Learning to Weight for Text Classification

Arxiv

8+阅读 · 2019年3月28日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

Inverse Reinforcement Learning via Deep Gaussian Process

Arxiv

3+阅读 · 2017年5月4日

大家都在搜

无人机集群

久别重逢话双塔

国防科技创新

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员