Although synthetic data has changed various aspects of information retrieval (IR) pipelines, the main training paradigm remains: contrastive learning with binary relevance labels, where one positive document is compared against several negatives using the InfoNCE loss. This objective treats all documents that are not explicitly annotated as relevant on an equally negative footing, regardless of their actual degree of relevance, thus missing subtle nuances useful for ranking. To overcome this limitation, in this work, we forgo real documents and annotations and use large language models to directly generate synthetic documents that answer the MS MARCO queries according to several different levels of relevance. We also propose using Wasserstein distance as a more effective loss function for training transformer-based retrievers with graduated relevance labels. Our experiments on MS MARCO and BEIR benchmark show that our proposed approach outperforms conventional training with InfoNCE by a large margin. Without using any real documents, our method significantly improves self-supervised retrievers and is more robust to distribution shift compared to contrastive learning using real data. Our method also successfully integrates existing real data into the synthetic ranking context, further boosting the performance. Overall, we show that generating multi-level ranking contexts is a better approach to synthetic data generation for IR than just generating the standard positive and negative documents.


翻译:尽管合成数据已改变信息检索(IR)流程的多个方面,但主流训练范式依然未变:基于二元相关性标签的对比学习,即使用InfoNCE损失函数将单个正相关文档与多个负相关文档进行比较。该目标函数将所有未明确标注为相关的文档均视为同等负向,忽略了实际相关性程度的细微差异,从而丢失了排序所需的关键信息。为突破此局限,本研究摒弃真实文档与标注,直接利用大语言模型根据多个不同相关性级别生成回答MS MARCO查询的合成文档。我们同时提出使用Wasserstein距离作为损失函数,以更有效地训练基于Transformer的检索器处理渐进式相关性标签。在MS MARCO和BEIR基准测试上的实验表明,我们提出的方法大幅优于传统使用InfoNCE的训练方式。在不使用任何真实文档的情况下,本方法显著提升了自监督检索器的性能,且相较于使用真实数据的对比学习,对分布偏移具有更强的鲁棒性。该方法还能成功将现有真实数据整合至合成排序语境中,进一步提升性能。总体而言,我们证明生成多级别排序语境是比仅生成标准正负文档更优的IR合成数据生成路径。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员