Background: Metabolic Dysfunction-Associated Steatotic Liver Disease (MASLD) affects ~33% of U.S. adults and is the most common chronic liver disease. Although often asymptomatic, progression can lead to cirrhosis. Early detection is important, as lifestyle interventions can prevent disease progression. We developed a fair, rigorous, and reproducible MASLD prediction model and compared it to prior methods using a large electronic health record database. Methods: We evaluated LASSO logistic regression, random forest, XGBoost, and a neural network for MASLD prediction using clinical feature subsets, including the top 10 SHAP-ranked features. To reduce disparities in true positive rates across racial and ethnic subgroups, we applied an equal opportunity postprocessing method. Results: This study included 59,492 patients in the training data, 24,198 in the validating data, and 25,188 in the testing data. The LASSO logistic regression model with the top 10 features was selected for its interpretability and comparable performance. Before fairness adjustment, the model achieved AUROC of 0.84, accuracy of 78%, sensitivity of 72%, specificity of 79%, and F1-score of 0.617. After equal opportunity postprocessing, accuracy modestly increased to 81% and specificity to 94%, while sensitivity decreased to 41% and F1-score to 0.515, reflecting the fairness trade-off. Conclusions: We developed the MASER prediction model (MASLD Static EHR Risk Prediction), a LASSO logistic regression model which achieved competitive performance for MASLD prediction (AUROC 0.836, accuracy 77.6%), comparable to previously reported ensemble and tree-based models. Overall, this approach demonstrates that interpretable models can achieve a balance of predictive performance and fairness in diverse patient populations.


翻译:背景:代谢功能障碍相关脂肪性肝病(MASLD)影响约33%的美国成年人,是最常见的慢性肝病。该病通常无症状,但疾病进展可导致肝硬化。早期检测至关重要,因为生活方式干预可预防疾病进展。我们开发了一个公平、严谨且可复现的MASLD预测模型,并利用大型电子健康记录数据库将其与现有方法进行比较。方法:我们评估了LASSO逻辑回归、随机森林、XGBoost和神经网络在MASLD预测中的表现,使用的临床特征子集包括SHAP排序前10位的特征。为降低不同种族和民族亚组间真阳性率的差异,我们应用了机会均等后处理方法。结果:本研究训练数据包含59,492名患者,验证数据包含24,198名患者,测试数据包含25,188名患者。选择基于前10位特征的LASSO逻辑回归模型,因其可解释性强且性能相当。在公平性调整前,该模型的AUROC为0.84,准确率为78%,敏感度为72%,特异度为79%,F1分数为0.617。经过机会均等后处理后,准确率小幅提升至81%,特异度提升至94%,而敏感度降至41%,F1分数降至0.515,这反映了公平性权衡。结论:我们开发了MASER预测模型(MASLD静态电子健康记录风险预测),这是一个LASSO逻辑回归模型,在MASLD预测中取得了具有竞争力的性能(AUROC 0.836,准确率77.6%),与先前报道的集成模型和基于树的模型性能相当。总体而言,该方法表明可解释模型能够在多样化患者群体中实现预测性能与公平性的平衡。

0
下载
关闭预览

相关内容

逻辑回归(也称“对数几率回归”)(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。在统计学中,logistic模型(或logit模型)用于对存在的某个类或事件的概率建模,例如通过/失败、赢/输、活着/死了或健康/生病。这可以扩展到建模若干类事件,如确定一个图像是否包含猫、狗、狮子等。图像中检测到的每个物体的概率都在0到1之间,其和为1。
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员