In realistic retrieval settings with large and evolving knowledge bases, the total number of documents relevant to a query is typically unknown, and recall cannot be computed. In this paper, we evaluate several established strategies for handling this limitation by measuring the correlation between retrieval quality metrics and LLM-based judgments of response quality, where responses are generated from the retrieved documents. We conduct experiments across multiple datasets with a relatively low number of relevant documents (2-15). We also introduce a simple retrieval quality measure that performs well without requiring knowledge of the total number of relevant documents.


翻译:在现实检索场景中,由于知识库规模庞大且持续更新,查询相关的文档总数通常未知,因此无法计算召回率。本文通过评估检索质量指标与基于大语言模型(LLM)的响应质量判断之间的相关性,系统检验了处理这一局限性的多种现有策略——其中响应内容均依据检索文档生成。我们在多个数据集(相关文档数较少,约2-15篇)上进行了实验,并提出一种无需已知相关文档总数即可有效评估检索质量的简易度量方法。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
24+阅读 · 2021年8月27日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员