Stability and reproducibility are essential considerations in various applications of statistical methods. False Discovery Rate (FDR) control methods are able to control false signals in scientific discoveries. However, many FDR control methods, such as Model-X knockoff and data-splitting approaches, yield unstable results due to the inherent randomness of the algorithms. To enhance the stability and reproducibility of statistical outcomes, we propose a general stability approach for FDR control in feature selection and multiple testing problems, named FDR Stabilizer. Taking feature selection as an example, our method first aggregates feature importance statistics obtained by multiple runs of the base FDR control procedure into a consensus ranking. Then, we construct a stabilized relaxed e-value for each feature and apply the e-BH procedure to these stabilized e-values to obtain the final selection set. We theoretically derive the finite-sample bounds for the FDR and the power of our method, and show that our method asymptotically controls the FDR without power loss. Moreover, we establish the stability of the proposed method, showing that the stabilized selection set converges to a deterministic limit as the number of repetitions increases. Extensive numerical experiments and applications to real datasets demonstrate that the proposed method generally outperforms existing alternatives.


翻译:稳定性和可重复性是统计方法在各种应用中的基本考量。错误发现率(FDR)控制方法能够控制科学发现中的错误信号。然而,许多FDR控制方法,例如Model-X knockoff和数据分割方法,由于算法固有的随机性,会产生不稳定的结果。为了提高统计结果的稳定性和可重复性,我们提出了一种用于特征选择和多重检验问题中控制FDR的通用稳定性方法,命名为FDR Stabilizer。以特征选择为例,我们的方法首先将通过多次运行基础FDR控制程序获得的特征重要性统计量聚合为一个共识排序。然后,我们为每个特征构建一个稳定的松弛e值,并对这些稳定的e值应用e-BH程序以获得最终的选择集合。我们从理论上推导了该方法FDR和功效的有限样本界,并证明我们的方法能够渐近控制FDR且无功效损失。此外,我们建立了所提出方法的稳定性,表明随着重复次数的增加,稳定的选择集合会收敛到一个确定性极限。大量的数值实验和真实数据集应用表明,所提出的方法通常优于现有的替代方法。

0
下载
关闭预览

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence
专知会员服务
36+阅读 · 2024年11月11日
【NeurIPS2023】用几何协调对抗表示学习视差
专知会员服务
27+阅读 · 2023年10月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员