This paper tackles the problem of missing data imputation for noisy and non-Gaussian data. A classical imputation method, the Expectation Maximization (EM) algorithm for Gaussian mixture models, has shown interesting properties when compared to other popular approaches such as those based on k-nearest neighbors or on multiple imputations by chained equations. However, Gaussian mixture models are known to be non-robust to heterogeneous data, which can lead to poor estimation performance when the data is contaminated by outliers or follows non-Gaussian distributions. To overcome this issue, a new EM algorithm is investigated for mixtures of elliptical distributions with the property of handling potential missing data. This paper shows that this problem reduces to the estimation of a mixture of Angular Gaussian distributions under generic assumptions (i.e., each sample is drawn from a mixture of elliptical distributions, which is possibly different for one sample to another). In that case, the complete-data likelihood associated with mixtures of elliptical distributions is well adapted to the EM framework with missing data thanks to its conditional distribution, which is shown to be a multivariate $t$-distribution. Experimental results on synthetic data demonstrate that the proposed algorithm is robust to outliers and can be used with non-Gaussian data. Furthermore, experiments conducted on real-world datasets show that this algorithm is very competitive when compared to other classical imputation methods.
翻译:本文解决了对噪音和非毛利数据缺少数据估算的问题。 古典估算方法, 即高斯混合模型的期待最大化算法(EM), 与其他流行方法相比, 如基于 k 近邻或基于链式方程式的多重估算法, 显示了有趣的特性。 然而, 高斯混合模型已知不是来自异式数据的混合体, 这可能导致在数据受到外部线或非高加索分布的竞争性污染时, 数据估计性能差。 为了克服这一问题, 正在调查一种新的EM 算法, 以混合流星分布与处理潜在缺失数据属性的混合。 本文显示, 这个问题会降低到根据通用假设对角高斯分布的混合体进行估计( 即, 每个样本都是从螺旋分布混合体中提取的, 一种样本可能不同于另一种样本 ) 。 在这种情况下, 与蛋白质分布的混合物相关的完整数据可能性, 要克服这一问题, 将精度分布法与处理潜在缺失数据特性的混合体混合体混合体混合体进行, 将比起来, 将无法对精度框架进行精确度进行精确的精度数据分析,, 。 将模拟数据模拟分析结果显示, 要显示, 要显示的是, 精确的模型数据流数据流值数据,,, 要显示, 要显示,, 要演示数据流值数据流值数据,,,, 要演示,, 要显示,,,, 以 模拟数据流值数据流化,,, 以, 以 以 以 以 度 精确性化值, 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度