Subset selection is a valuable tool for interpretable learning, scientific discovery, and data compression. However, classical subset selection is often eschewed due to selection instability, computational bottlenecks, and lack of post-selection inference. We address these challenges from a Bayesian perspective. Given any Bayesian predictive model $\mathcal{M}$, we elicit predictively-competitive subsets using linear decision analysis. The approach is customizable for (local) prediction or classification and provides interpretable summaries of $\mathcal{M}$. A key quantity is the acceptable family of subsets, which leverages the predictive distribution from $\mathcal{M}$ to identify subsets that offer nearly-optimal prediction. The acceptable family spawns new (co-) variable importance metrics based on whether variables (co-) appear in all, some, or no acceptable subsets. Crucially, the linear coefficients for any subset inherit regularization and predictive uncertainty quantification via $\mathcal{M}$. The proposed approach exhibits excellent prediction, interval estimation, and variable selection for simulated data, including $p=400 > n$. These tools are applied to a large education dataset with highly correlated covariates, where the acceptable family is especially useful. Our analysis provides unique insights into the combination of environmental, socioeconomic, and demographic factors that predict educational outcomes, and features highly competitive prediction with remarkable stability.


翻译:子集选择是可解释的学习、科学发现和数据压缩的宝贵工具。 然而, 经典子集选择往往由于选择不稳定、 计算瓶颈和缺乏选后推断而被忽略。 我们从巴伊西亚的角度来应对这些挑战。 根据任何巴伊西亚预测模型 $\ mathcal{M} 美元, 我们通过线性决定分析来获取具有预测竞争力的子集。 这种方法对于( 本地) 的预测或分类来说是可定制的, 并且提供了美元\ mcal{M}$的可解释性摘要。 关键数量是可接受子集的家族, 它利用从 $\ mathcal{M} 来预测分布预测性分布, 来确定能提供近于最佳预测的子集。 可接受的家族根据变量( co-) 来生成新的( co-) 可变重要性指标, 使用线性决定分析。 关键是, 任何子子继承正规和预测性的线性系数, 以$\mathcal{M} 。 提议的方法展示了极好的预测性、 和可变性选择性地选择性数据, 包括 $p4 excialalalalalatealalatealatealatealate exulatealatealatedalate, exalate, extidudududealatedalatedalates, 这些数据是高可提供我们可理解性的数据, exview。 这些数据是高可提供。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年4月12日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
专知会员服务
42+阅读 · 2020年12月18日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
200+阅读 · 2020年2月24日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年5月8日
Arxiv
14+阅读 · 2020年12月17日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年5月8日
Top
微信扫码咨询专知VIP会员