Artificial Intelligence (AI), particularly Large Language Models (LLMs), is transforming scientific discovery, enabling rapid knowledge generation and hypothesis formulation. However, a critical challenge is hallucination, where LLMs generate factually incorrect or misleading information, compromising research integrity. To address this, we introduce HalluMatData, a benchmark dataset for evaluating hallucination detection methods, factual consistency, and response robustness in AI-generated materials science content. Alongside this, we propose HalluMatDetector, a multi-stage hallucination detection framework that integrates intrinsic verification, multi-source retrieval, contradiction graph analysis, and metric-based assessment to detect and mitigate LLM hallucinations. Our findings reveal that hallucination levels vary significantly across materials science subdomains, with high-entropy queries exhibiting greater factual inconsistencies. By utilizing HalluMatDetector verification pipeline, we reduce hallucination rates by 30% compared to standard LLM outputs. Furthermore, we introduce the Paraphrased Hallucination Consistency Score (PHCS) to quantify inconsistencies in LLM responses across semantically equivalent queries, offering deeper insights into model reliability.


翻译:人工智能(AI),特别是大语言模型(LLMs),正在变革科学发现,使得快速知识生成与假设构建成为可能。然而,一个关键挑战是幻觉问题,即LLMs生成事实上不正确或具有误导性的信息,从而损害研究完整性。为解决此问题,我们引入了HalluMatData,这是一个用于评估AI生成材料科学内容中幻觉检测方法、事实一致性及响应鲁棒性的基准数据集。与此同时,我们提出了HalluMatDetector,一个多阶段幻觉检测框架,该框架整合了内在验证、多源检索、矛盾图分析和基于度量的评估,以检测并缓解LLM幻觉。我们的研究结果表明,幻觉水平在材料科学各子领域间差异显著,其中高熵查询表现出更大的事实不一致性。通过利用HalluMatDetector验证流程,与标准LLM输出相比,我们将幻觉率降低了30%。此外,我们引入了释义幻觉一致性分数(PHCS),以量化LLM在语义等价查询间响应的一致性,从而为模型可靠性提供更深入的洞见。

0
下载
关闭预览

相关内容

【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员