Accurate mortality risk prediction for intensive care unit (ICU) patients is essential for clinical decision-making. Although large language models (LLMs) show promise in predicting outcomes from structured medical data, their predictions may exhibit demographic biases related to sex, age, and race, limiting their trustworthy use in clinical practice. Existing debiasing methods often reduce predictive performance, making it difficult to jointly optimize fairness and accuracy. In this study, we systematically examine bias in LLM-based ICU mortality prediction and propose a training-free, clinically adaptive prompting framework to simultaneously improve fairness and performance. We first develop a multi-dimensional bias assessment scheme for comprehensive model diagnosis. Building on this analysis, we introduce CAse Prompting (CAP), a novel prompting framework that integrates conventional debiasing prompts with case-based reasoning. CAP guides the model to learn from similar historical misprediction cases and their correct outcomes, enabling correction of biased reasoning patterns. Experiments on the MIMIC-IV dataset show that CAP substantially improves both predictive accuracy and fairness. CAP increases AUROC from 0.806 to 0.873 and AUPRC from 0.497 to 0.694, while reducing sex- and race-related disparities by over 90%. Feature reliance analysis further indicates highly consistent attention patterns across demographic groups, with similarity scores exceeding 0.98. These results demonstrate that LLMs exhibit measurable bias in ICU mortality prediction, and that a carefully designed prompting framework can effectively co-optimize fairness and performance without retraining, offering a transferable paradigm for equitable clinical decision support.


翻译:重症监护病房(ICU)患者的准确死亡率风险预测对于临床决策至关重要。尽管大型语言模型(LLMs)在基于结构化医疗数据预测临床结局方面展现出潜力,但其预测可能表现出与性别、年龄和种族相关的人口统计学偏见,限制了其在临床实践中的可信应用。现有的去偏见方法通常会降低预测性能,导致难以同时优化公平性与准确性。本研究系统性地检验了基于LLM的ICU死亡率预测中的偏见,并提出一种无需训练、临床自适应的提示框架,以同步提升公平性与性能。我们首先开发了一个多维度偏见评估方案,用于全面的模型诊断。基于此分析,我们引入了案例提示(CAP)这一新型提示框架,该框架将传统的去偏见提示与基于案例的推理相结合。CAP引导模型从相似的历史误判案例及其正确结局中学习,从而纠正有偏见的推理模式。在MIMIC-IV数据集上的实验表明,CAP显著提升了预测准确性与公平性:CAP将AUROC从0.806提高至0.873,AUPRC从0.497提升至0.694,同时将性别与种族相关的差异降低了90%以上。特征依赖分析进一步显示,不同人口统计学群体间的注意力模式高度一致,相似度评分超过0.98。这些结果表明,LLMs在ICU死亡率预测中存在可量化的偏见,而精心设计的提示框架能够在不重新训练的情况下有效协同优化公平性与性能,为公平的临床决策支持提供了一个可迁移的范式。

0
下载
关闭预览

相关内容

CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员