The recent proliferation of large language models (LLMs) holds the potential to revolutionize healthcare, with strong capabilities in diverse medical tasks. Yet, deploying LLMs in high-stakes healthcare settings requires rigorous verification and validation to understand any potential harm. This paper investigates the reliability and viability of using medical knowledge graphs (KGs) for the automated factuality evaluation of LLM-generated responses. To ground this investigation, we introduce FAITH, a framework designed to systematically probe the strengths and limitations of this KG-based approach. FAITH operates without reference answers by decomposing responses into atomic claims, linking them to a medical KG, and scoring them based on evidence paths. Experiments on diverse medical tasks with human subjective evaluations demonstrate that KG-grounded evaluation achieves considerably higher correlations with clinician judgments and can effectively distinguish LLMs with varying capabilities. It is also robust to textual variances. The inherent explainability of its scoring can further help users understand and mitigate the limitations of current LLMs. We conclude that while limitations exist, leveraging KGs is a prominent direction for automated factuality assessment in healthcare.


翻译:近期大规模语言模型(LLM)的激增为医疗健康领域带来了革命性潜力,其在多样化医疗任务中展现出强大能力。然而,在高风险医疗场景中部署LLM需要进行严格的验证与确认,以理解其潜在风险。本文研究了利用医疗知识图谱(KG)对LLM生成回答进行自动事实性评估的可靠性与可行性。为此,我们提出FAITH框架,旨在系统探究这种基于知识图谱方法的优势与局限。FAITH无需参考答案即可运行:通过将回答分解为原子主张,将其与医疗知识图谱关联,并依据证据路径进行评分。在多样化医疗任务上进行的实验及人工主观评估表明,基于知识图谱的评估方法与临床医生判断具有显著更高的相关性,并能有效区分不同性能水平的LLM。该方法对文本变异也表现出鲁棒性。其评分机制固有的可解释性可进一步帮助用户理解并缓解当前LLM的局限性。我们得出结论:尽管存在局限,利用知识图谱仍是医疗领域自动事实性评估的重要发展方向。

0
下载
关闭预览

相关内容

《人-AI协作设计:统计量方法》最新77页
专知会员服务
27+阅读 · 5月3日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 4月29日
大型语言模型与智能机器人集成的综述
专知会员服务
70+阅读 · 2024年4月22日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员