Large language models(LLMs) excel at text generation and knowledge question-answering tasks, but they are prone to generating hallucinated content, severely limiting their application in high-risk domains. Current hallucination detection methods based on uncertainty estimation and external knowledge retrieval suffer from the limitation that they still produce erroneous content at high confidence levels and rely heavily on retrieval efficiency and knowledge coverage. In contrast, probe methods that leverage the model's hidden-layer states offer real-time and lightweight advantages. However, traditional linear probes struggle to capture nonlinear structures in deep semantic spaces.To overcome these limitations, we propose a neural network-based framework for token-level hallucination detection. By freezing language model parameters, we employ lightweight MLP probes to perform nonlinear modeling of high-level hidden states. A multi-objective joint loss function is designed to enhance detection stability and semantic disambiguity. Additionally, we establish a layer position-probe performance response model, using Bayesian optimization to automatically search for optimal probe insertion layers and achieve superior training results.Experimental results on LongFact, HealthBench, and TriviaQA demonstrate that MLP probes significantly outperform state-of-the-art methods in accuracy, recall, and detection capability under low false-positive conditions.


翻译:大型语言模型在文本生成和知识问答任务中表现出色,但容易产生幻觉内容,这严重限制了其在高风险领域的应用。当前基于不确定性估计和外部知识检索的幻觉检测方法存在局限:它们仍会在高置信度下产生错误内容,并且高度依赖检索效率和知识覆盖范围。相比之下,利用模型隐藏层状态的探针方法具有实时性和轻量级的优势。然而,传统的线性探针难以捕捉深度语义空间中的非线性结构。为克服这些限制,我们提出一种基于神经网络的词元级幻觉检测框架。通过冻结语言模型参数,我们采用轻量级MLP探针对高层隐藏状态进行非线性建模。设计了多目标联合损失函数以增强检测稳定性和语义消歧能力。此外,我们建立了层位置-探针性能响应模型,利用贝叶斯优化自动搜索最优探针插入层,从而实现更优的训练效果。在LongFact、HealthBench和TriviaQA数据集上的实验结果表明,MLP探针在准确率、召回率以及低误报条件下的检测能力方面均显著优于现有最先进方法。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员