We consider the problem of estimating the factors of a low-rank $n \times d$ matrix, when this is corrupted by additive Gaussian noise. A special example of our setting corresponds to clustering mixtures of Gaussians with equal (known) covariances. Simple spectral methods do not take into account the distribution of the entries of these factors and are therefore often suboptimal. Here, we characterize the asymptotics of the minimum estimation error under the assumption that the distribution of the entries is known to the statistician. Our results apply to the high-dimensional regime $n, d \to \infty$ and $d / n \to \infty$ (or $d / n \to 0$) and generalize earlier work that focused on the proportional asymptotics $n, d \to \infty$, $d / n \to \delta \in (0, \infty)$. We outline an interesting signal strength regime in which $d / n \to \infty$ and partial recovery is possible for the left singular vectors while impossible for the right singular vectors. We illustrate the general theory by deriving consequences for Gaussian mixture clustering and carrying out a numerical study on genomics data.
翻译:我们考虑的是估算低调 $\ time d$ 矩阵因素的问题,当这一因素被添加的高斯噪音腐蚀时,我们考虑的是估算低调 $\ time d$ d$ d times d$ 矩阵的因素。我们设置的特例是将高斯与(已知的)等量共差的混合物组合起来。简单的光谱方法没有考虑到这些因素条目的分布,因此往往不那么理想。在这里,我们根据统计员知道条目分布的假设,将最低估计错误描述为零点。我们的结果适用于高维系统 $, d\ to\ infty$ 和 $d/ n\ t\ to\ inty$ (或 $/ n\ 到 0美元) 的特殊例子。我们概述了一个有趣的信号强度制度, 美元/ n\ inty$, 和 $/ n\ t\ to\ inty$ (或 $d/ n\ n\ to\ inty$) \ infty$ (或 int) g) inty$ (或 $ $/ n\ fty) (或 $ n\ n\ n\ to g\ to fty) (或 $) $) (或 $) (或 $) 美元) 美元) 美元) (或 美元) (或 美元) 美元) 美元) (或 美元) (或 美元) 美元) 美元) (或 美元) (或 美元) 美元= 美元= 美元= 美元= 美元) 美元) (或 美元) (或 美元) 美元) 美元) (或 美元) 美元= 美元= 美元= 美元) 美元) 美元 (或 美元) (或 美元) 美元) 美元) (或 美元) (或 美元) (或 美元) 美元) 美元 (或 美元) (或 美元) 美元) 美元) (或 美元) 美元 (或 美元 (或 美元 (或 美元 (或 美元) 美元) 美元) (或 美元) 美元(或 美元) (或 美元) (或 美元) (美元) 美元) (美元) (美元) 美元) (或