博士生詹靖涛(导师:马少平)为第一作者的长文“Optimizing Dense Retrieval Model Training with Hard Negatives”(作者:詹靖涛,毛佳昕,刘奕群,郭嘉丰,张敏,马少平)。

内容简介:

   排序一直是信息检索研究的热点之一。几十年来,关键词匹配(lexical matching)一直主导着检索技术,但它不能考虑语义信号。近年来,随着表示学习的发展,许多研究者转向向量检索(Dense Retrieval)模型以获得更好的排序性能。尽管已有的一些向量检索模型已经取得了很好的结果,其性能的提高很大程度上依赖负采样技术。然而,一些负采样技术效率较低,难以应用到实际中。同时对于为什么一些负采样技术可以提升性能,目前仍然缺乏理论分析。

   我们从理论上分析了不同的负采样技术,即随机负采样(random negative sampling)和静态难例负采样(static hard negative sampling)。我们发现这两种负采样技术都存在着不足或风险:前者会导致一些较为困难的查询主导了训练过程,使得模型不能有效地对TopK结果进行排序;后者的优化目标有偏,训练过程不够稳定。我们设计实验验证了理论的分析。



   针对这些局限性,本文提出了STAR和ADORE两种新的DR模型训练技术。STAR把静态难负例与随机负例相结合,在优化TopK排序的同时稳定训练。ADORE用动态难负例(dynamic hard negatives)来训练查询编码器,在训练中直接优化排序性能。我们在Benchmark数据集上进行实验。实验结果表明这两种训练策略都十分有效,他们的结合能够得到最佳的排序结果,显著优于强基线。同时这两种训练技术的训练效率也显著优于之前性能较强的基线。

表:TREC DL Track上各模型排序性能的对比

图片

https://arxiv.org/pdf/2104.08051.pdf

成为VIP会员查看完整内容
26

相关内容

信息检索( Information Retrieval )指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标:准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
22+阅读 · 2021年3月23日
【CIKM2020】利用自注意力网络使搜索结果多样化
专知会员服务
12+阅读 · 2020年11月6日
专知会员服务
78+阅读 · 2020年8月4日
专知会员服务
49+阅读 · 2020年6月14日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
论文荐读:理解图表示学习中的负采样
学术头条
29+阅读 · 2020年5月29日
基于表示模型的文本匹配方法
AINLP
7+阅读 · 2020年5月8日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
论文浅尝 | 通过多原型实体指称向量关联文本和实体
开放知识图谱
7+阅读 · 2018年6月21日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
13+阅读 · 2018年4月15日
优化哈希策略
ImportNew
5+阅读 · 2018年1月17日
Arxiv
5+阅读 · 2019年10月11日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年3月23日
【CIKM2020】利用自注意力网络使搜索结果多样化
专知会员服务
12+阅读 · 2020年11月6日
专知会员服务
78+阅读 · 2020年8月4日
专知会员服务
49+阅读 · 2020年6月14日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
相关资讯
论文荐读:理解图表示学习中的负采样
学术头条
29+阅读 · 2020年5月29日
基于表示模型的文本匹配方法
AINLP
7+阅读 · 2020年5月8日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
论文浅尝 | 通过多原型实体指称向量关联文本和实体
开放知识图谱
7+阅读 · 2018年6月21日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
13+阅读 · 2018年4月15日
优化哈希策略
ImportNew
5+阅读 · 2018年1月17日
微信扫码咨询专知VIP会员