The ubiquity of missing values in real-world datasets poses a challenge for statistical inference and can prevent similar datasets from being analyzed in the same study, precluding many existing datasets from being used for new analyses. While an extensive collection of packages and algorithms have been developed for data imputation, the overwhelming majority perform poorly if there are many missing values and low sample size, which are unfortunately common characteristics in empirical data. Such low-accuracy estimations adversely affect the performance of downstream statistical models. We develop a statistical inference framework for predicting the target variable without imputing missing values. Our framework, RIFLE (Robust InFerence via Low-order moment Estimations), estimates low-order moments with corresponding confidence intervals to learn a distributionally robust model. We specialize our framework to linear regression and normal discriminant analysis, and we provide convergence and performance guarantees. This framework can also be adapted to impute missing data. In numerical experiments, we compare RIFLE with state-of-the-art approaches (including MICE, Amelia, MissForest, KNN-imputer, MIDA, and Mean Imputer). Our experiments demonstrate that RIFLE outperforms other benchmark algorithms when the percentage of missing values is high and/or when the number of data points is relatively small. RIFLE is publicly available.


翻译:真实世界数据集中缺失值的普遍存在给统计推断带来了挑战,并可能阻止在同一研究中对类似数据集进行分析,使许多现有数据集无法用于新的分析。虽然为数据估算开发了大量的软件包和算法,但绝大多数都表现不佳,如果有许多缺失值和低抽样规模,不幸的是,这是经验数据的共同特征。这种低准确性估计对下游统计模型的性能产生了不利影响。我们开发了一个统计推论框架,用以预测目标变量,而不计算缺失值。我们的框架,即RIFLE(通过低序时的动画, Robust Infert Inference ), 估计了低序时段和相应的信任间隔,以学习一个分布稳健的模型。我们专门将我们的框架用于线性回归和正常的对比分析,我们提供趋同和绩效保证。这个框架还可以调整为对缺失数据进行预测。在数字实验中,我们将RIFLE与最新方法(包括MI、Amelia、MissFest、KNNF-imbrestress-imter), 当我们缺少其他基准点是相对的RIFA/IMIFA, 当我们缺少数据时,而缺少的高级数据是SBIFIFDA/ILADRILADRILA/IA, 高时, 时, 高级数据是SDADADADADADADRBDADADA的相对的代数。

0
下载
关闭预览

相关内容

因果推断,Causal Inference:The Mixtape
专知会员服务
105+阅读 · 2021年8月27日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月25日
Arxiv
0+阅读 · 2021年10月22日
Arxiv
0+阅读 · 2021年10月20日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
3+阅读 · 2018年1月10日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年10月25日
Arxiv
0+阅读 · 2021年10月22日
Arxiv
0+阅读 · 2021年10月20日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
3+阅读 · 2018年1月10日
Top
微信扫码咨询专知VIP会员