When asked, current large language models (LLMs) like ChatGPT claim that they can assist us with relevance judgments. Many researchers think this would not lead to credible IR research. In this perspective paper, we discuss possible ways for LLMs to assist human experts along with concerns and issues that arise. We devise a human-machine collaboration spectrum that allows categorizing different relevance judgment strategies, based on how much the human relies on the machine. For the extreme point of "fully automated assessment", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing two opposing perspectives - for and against the use of LLMs for automatic relevance judgments - and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers. We hope to start a constructive discussion within the community to avoid a stale-mate during review, where work is dammed if is uses LLMs for evaluation and dammed if it doesn't.


翻译:Translated Abstract: 当问及当前的大型语言模型(如ChatGPT)是否可以辅助我们进行相关性判断时,许多研究人员认为这不会产生可信的信息检索研究结果。在本文中,我们讨论了大型语言模型辅助人类专家进行相关性判断的可能方式,同时也涉及到了可能出现的问题和关切点。我们构建了一个机器-人类合作的分析模型,以对不同的相关性判断策略进行分类,分类的标准是人类评估员需要多少依赖于机器的判定。在最极端的“完全自动化评估”点上,我们进一步进行了一个初步实验,以测试基于大型语言模型的相关性判断是否与训练有素的人类评估员一致。最后,我们提供了两种对于大型语言模型在自动化相关性判断方面的相对立的观点,以及一个妥协的视角,其中包括了我们对文献的分析、初步实验结果和作为信息检索研究人员的经验所得出的一些结论。希望本文能够在社区中引发建设性的讨论,以避免稿件在审阅过程中陷入僵局,要么因为使用了大型语言模型而被否决,要么因为没有使用而被否决。

0
下载
关闭预览

相关内容

百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
【ACM Multimedia2021-tutorial】可信赖多媒体分析
专知会员服务
17+阅读 · 2021年10月20日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
31+阅读 · 2022年12月20日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员