Translated title: ChatGPT是好的搜索工具吗？探究大型语言模型作为重新排序代理的适用性 Translated abstract: 大型语言模型（LLMs）已经展示了在各种涉及自然语言的任务上，它们具有显著的泛化能力，甚至可以零样本学习。本文关注于研究生成型LLMs，如ChatGPT和GPT-4在信息检索（IR）中作为相关性排序的评估性能。令人惊讶的是，我们的实验揭示，经过适当的指导，ChatGPT和GPT-4可以提供与基于监督学习方法相媲美甚至更好的结果。值得注意的是，在TREC数据集上，GPT-4比完全微调的monoT5-3B平均nDCG高出2.7，比八个BEIR数据集平均nDCG高出2.3，在十种低资源语言的Mr.TyDi上平均nDCG高2.7。此外，我们还探讨了ChatGPT的排序能力的蒸馏潜力，并研发了一个专门的小型模型。我们的小型专用模型，在10K ChatGPT生成数据的基础上训练，在BEIR上的表现优于使用400K注释过的MS MARCO数据训练的monoT5。我们的实现代码可以在www.github.com/sunnweiwei/RankGPT 上获取。 (Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent)

翻译：Translated title: ChatGPT是好的搜索工具吗？探究大型语言模型作为重新排序代理的适用性 Translated abstract: 大型语言模型（LLMs）已经展示了在各种涉及自然语言的任务上，它们具有显著的泛化能力，甚至可以零样本学习。本文关注于研究生成型LLMs，如ChatGPT和GPT-4在信息检索（IR）中作为相关性排序的评估性能。令人惊讶的是，我们的实验揭示，经过适当的指导，ChatGPT和GPT-4可以提供与基于监督学习方法相媲美甚至更好的结果。值得注意的是，在TREC数据集上，GPT-4比完全微调的monoT5-3B平均nDCG高出2.7，比八个BEIR数据集平均nDCG高出2.3，在十种低资源语言的Mr.TyDi上平均nDCG高2.7。此外，我们还探讨了ChatGPT的排序能力的蒸馏潜力，并研发了一个专门的小型模型。我们的小型专用模型，在10K ChatGPT生成数据的基础上训练，在BEIR上的表现优于使用400K注释过的MS MARCO数据训练的monoT5。我们的实现代码可以在www.github.com/sunnweiwei/RankGPT 上获取。

Weiwei Sun,Lingyong Yan,Xinyu Ma,Pengjie Ren,Dawei Yin,Zhaochun Ren

Large Language Models (LLMs) have demonstrated a remarkable ability to generalize zero-shot to various language-related tasks. This paper focuses on the study of exploring generative LLMs such as ChatGPT and GPT-4 for relevance ranking in Information Retrieval (IR). Surprisingly, our experiments reveal that properly instructed ChatGPT and GPT-4 can deliver competitive, even superior results than supervised methods on popular IR benchmarks. Notably, GPT-4 outperforms the fully fine-tuned monoT5-3B on MS MARCO by an average of 2.7 nDCG on TREC datasets, an average of 2.3 nDCG on eight BEIR datasets, and an average of 2.7 nDCG on ten low-resource languages Mr.TyDi. Subsequently, we delve into the potential for distilling the ranking capabilities of ChatGPT into a specialized model. Our small specialized model that trained on 10K ChatGPT generated data outperforms monoT5 trained on 400K annotated MS MARCO data on BEIR. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT

翻译：

相关内容

ChatGPT

关注 257

ChatGPT（全名：Chat Generative Pre-trained Transformer），美国OpenAI 研发的聊天机器人程序 [1] ，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文任务。 [1] https://openai.com/blog/chatgpt/

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

【CMU博士论文】信息检索中的神经匹配和重要性学习，163页pdf

专知会员服务

58+阅读 · 2020年7月20日