Large Language Models (LLMs) have demonstrated remarkable proficiency in generating text that closely resemble human writing. However, they often generate factually incorrect statements, a problem typically referred to as 'hallucination'. Addressing hallucination is crucial for enhancing the reliability and effectiveness of LLMs. While much research has focused on hallucinations in English, our study extends this investigation to conversational data in three languages: Hindi, Farsi, and Mandarin. We offer a comprehensive analysis of a dataset to examine both factual and linguistic errors in these languages for GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 and Qwen-3. We found that LLMs produce very few hallucinated responses in Mandarin but generate a significantly higher number of hallucinations in Hindi and Farsi.


翻译:大型语言模型(LLMs)在生成高度接近人类写作的文本方面展现出卓越能力。然而,它们经常生成事实错误的陈述,这一问题通常被称为“幻觉”。解决幻觉问题对于提升LLMs的可靠性和有效性至关重要。尽管现有研究多集中于英语中的幻觉现象,本研究将这一探究扩展至三种语言的对话数据:印地语、波斯语和汉语。我们通过对数据集的全面分析,考察了GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1和Qwen-3在这些语言中产生的事实性错误与语言错误。研究发现,LLMs在汉语中产生的幻觉响应极少,但在印地语和波斯语中生成的幻觉数量显著更高。

0
下载
关闭预览

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
35+阅读 · 6月2日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关VIP内容
大型语言模型推理增强外部知识:综述
专知会员服务
35+阅读 · 6月2日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员