Machine Learning (ML) is gaining popularity for hypothesis-free discovery of risk and protective factors in healthcare studies. ML is strong at discovering nonlinearities and interactions, but this power is compromised by a lack of reliable inference. Although Shapley values provide local measures of features' effects, valid uncertainty quantification for these effects is typically lacking, thus precluding statistical inference. We propose RuleSHAP, a framework that addresses this limitation by combining a dedicated Bayesian sparse regression model with a new tree-based rule generator and Shapley value attribution. RuleSHAP provides detection of nonlinear and interaction effects with uncertainty quantification at the individual level. We derive an efficient formula for computing marginal Shapley values within this framework. We demonstrate the validity of our framework on simulated data. Finally, we apply RuleSHAP to data from an epidemiological cohort to detect and infer several effects for high cholesterol and blood pressure, such as nonlinear interaction effects between features like age, sex, ethnicity, BMI and glucose level.


翻译:机器学习(ML)在医疗健康研究中因能实现无需预设假设的风险与保护因素发现而日益普及。ML在发现非线性关系与交互效应方面具有优势,但其潜力常因缺乏可靠的统计推断方法而受限。虽然Shapley值能够提供特征效应的局部度量,但这些效应通常缺乏有效的不确定性量化,从而阻碍了统计推断。本文提出RuleSHAP框架,通过将专用贝叶斯稀疏回归模型、新型树基规则生成器与Shapley值归因方法相结合,解决了这一局限性。RuleSHAP能够在个体层面实现非线性与交互效应的检测,并提供不确定性量化。我们推导出该框架下计算边际Shapley值的高效公式,并通过模拟数据验证了框架的有效性。最后,我们将RuleSHAP应用于流行病学队列数据,成功检测并推断了高胆固醇与高血压的若干效应,例如年龄、性别、种族、BMI与血糖水平等特征间的非线性交互效应。

0
下载
关闭预览

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【干货书】基于R的非线性时间序列分析,510页pdf
专知会员服务
47+阅读 · 2023年6月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员