Hallucinations in large language models (LLMs) pose significant safety concerns that impede their broader deployment. Recent research in hallucination detection has demonstrated that LLMs' internal representations contain truthfulness hints, which can be harnessed for detector training. However, the performance of these detectors is heavily dependent on the internal representations of predetermined tokens, fluctuating considerably when working on free-form generations with varying lengths and sparse distributions of hallucinated entities. To address this, we propose HaMI, a novel approach that enables robust detection of hallucinations through adaptive selection and learning of critical tokens that are most indicative of hallucinations. We achieve this robustness by an innovative formulation of the Hallucination detection task as Multiple Instance (HaMI) learning over token-level representations within a sequence, thereby facilitating a joint optimisation of token selection and hallucination detection on generation sequences of diverse forms. Comprehensive experimental results on four hallucination benchmarks show that HaMI significantly outperforms existing state-of-the-art approaches.


翻译:大型语言模型(LLMs)中的幻觉问题构成了阻碍其广泛部署的重大安全隐患。近期的幻觉检测研究表明,LLMs的内部表征蕴含真实性线索,可用于检测器训练。然而,这些检测器的性能高度依赖于预设令牌的内部表征,在处理长度可变、幻觉实体分布稀疏的自由生成文本时表现波动显著。为解决此问题,我们提出HaMI方法——通过自适应选择并学习对幻觉最具指示性的关键令牌,实现鲁棒的幻觉检测。我们通过将幻觉检测任务创新性地构建为序列内令牌级表征的多示例(HaMI)学习问题,从而实现对多样化形式生成序列的令牌选择与幻觉检测的联合优化。在四个幻觉基准测试上的综合实验结果表明,HaMI显著优于现有最先进方法。

0
下载
关闭预览

相关内容

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员