Large language models (LLMs) often match or exceed clinician-level performance on medical benchmarks, yet very few are evaluated on real clinical data or examined beyond headline metrics. We present, to our knowledge, the first evaluation of an LLM-based medication safety review system on real NHS primary care data, with detailed characterisation of key failure behaviours across varying levels of clinical complexity. In a retrospective study using a population-scale EHR spanning 2,125,549 adults in NHS Cheshire and Merseyside, we strategically sampled patients to capture a broad range of clinical complexity and medication safety risk, yielding 277 patients after data-quality exclusions. An expert clinician reviewed these patients and graded system-identified issues and proposed interventions. Our primary LLM system showed strong performance in recognising when a clinical issue is present (sensitivity 100\% [95\% CI 98.2--100], specificity 83.1\% [95\% CI 72.7--90.1]), yet correctly identified all issues and interventions in only 46.9\% [95\% CI 41.1--52.8] of patients. Failure analysis reveals that, in this setting, the dominant failure mechanism is contextual reasoning rather than missing medication knowledge, with five primary patterns: overconfidence in uncertainty, applying standard guidelines without adjusting for patient context, misunderstanding how healthcare is delivered in practice, factual errors, and process blindness. These patterns persisted across patient complexity and demographic strata, and across a range of state-of-the-art models and configurations. We provide 45 detailed vignettes that comprehensively cover all identified failure cases. This work highlights shortcomings that must be addressed before LLM-based clinical AI can be safely deployed. It also begs larger-scale, prospective evaluations and deeper study of LLM behaviours in clinical contexts.


翻译:大型语言模型(LLM)在医学基准测试中常达到或超越临床医生水平,但极少有研究基于真实临床数据对其进行评估,或超越总体指标进行深入考察。据我们所知,本研究首次基于真实的英国国家医疗服务体系(NHS)初级诊疗数据,对LLM驱动的药物安全审查系统进行评估,并详细描述了不同临床复杂程度下的关键失效行为。在一项回顾性研究中,我们利用覆盖NHS柴郡和默西塞德地区2,125,549名成年人的大规模电子健康记录,通过策略性抽样选取了涵盖广泛临床复杂性和药物安全风险的患者,经数据质量排除后获得277名患者样本。一位临床专家对这些患者进行了审查,并对系统识别的问题及提出的干预措施进行了分级。我们的主要LLM系统在识别临床问题是否存在方面表现出色(灵敏度100% [95% CI 98.2–100],特异度83.1% [95% CI 72.7–90.1]),但仅在46.9% [95% CI 41.1–52.8]的患者中正确识别了所有问题及干预措施。失效分析表明,在此场景下,主要的失效机制是情境推理能力不足而非药物知识缺失,具体表现为五种主要模式:对不确定性的过度自信、未根据患者具体情境调整标准指南的应用、误解实际医疗服务的实施方式、事实性错误以及流程盲区。这些模式在不同患者复杂性、人口统计学分层以及一系列先进模型和配置中均持续存在。我们提供了45个详细案例,全面覆盖所有已识别的失效情形。本研究揭示了基于LLM的临床人工智能在安全部署前必须解决的缺陷,同时呼吁开展更大规模的前瞻性评估,并对LLM在临床环境中的行为进行更深入研究。

0
下载
关闭预览

相关内容

一种Agent自主性风险评估框架 | 最新文献
专知会员服务
16+阅读 · 10月24日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 4月29日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关基金
Top
微信扫码咨询专知VIP会员