Detecting influential features in non-linear and/or high-dimensional data is a challenging and increasingly important task in machine learning. Variable selection methods have thus been gaining much attention as well as post-selection inference. Indeed, the selected features can be significantly flawed when the selection procedure is not accounted for. We propose a selective inference procedure using the so-called model-free "HSIC-Lasso" based on the framework of truncated Gaussians combined with the polyhedral lemma. We then develop an algorithm, which allows for low computational costs and provides a selection of the regularisation parameter. The performance of our method is illustrated by both artificial and real-world data based experiments, which emphasise a tight control of the type-I error, even for small sample sizes.


翻译:检测非线性和/或高维数据中的有影响的特征是机器学习中一项具有挑战性和越来越重要的任务。变量选择方法因此引起了人们的极大关注,并且引起了选择后推论的注意。事实上,当选择程序不考虑时,所选择的特征可能存在重大缺陷。我们提议采用基于短途计数高斯人框架和多面列心相结合的所谓无模型的“HSIC-Lasso”选择性推论程序。然后我们开发一种算法,允许低计算成本和提供常规化参数的选择。我们方法的性能通过人工和基于现实世界的数据实验加以说明,这些实验强调严格控制类型I错误,即使是小样本大小的错误。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年10月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
0+阅读 · 2021年8月18日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
3+阅读 · 2018年6月18日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年10月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员