Estimating the rank of a corrupted data matrix is an important task in data analysis, most notably for choosing the number of components in PCA. Significant progress on this task was achieved using random matrix theory by characterizing the spectral properties of large noise matrices. However, utilizing such tools is not straightforward when the data matrix consists of count random variables, e.g., Poisson, in which case the noise can be heteroskedastic with an unknown variance in each entry. In this work, we consider a Poisson random matrix with independent entries, and propose a simple procedure termed \textit{biwhitening} for estimating the rank of the underlying signal matrix (i.e., the Poisson parameter matrix) without any prior knowledge. Our approach is based on the key observation that one can scale the rows and columns of the data matrix simultaneously so that the spectrum of the corresponding noise agrees with the standard Marchenko-Pastur (MP) law, justifying the use of the MP upper edge as a threshold for rank selection. Importantly, the required scaling factors can be estimated directly from the observations by solving a matrix scaling problem via the Sinkhorn-Knopp algorithm. Aside from the Poisson, our approach is extended to families of distributions that satisfy a quadratic relation between the mean and the variance, such as the generalized Poisson, binomial, negative binomial, gamma, and many others. This quadratic relation can also account for missing entries in the data. We conduct numerical experiments that corroborate our theoretical findings, and showcase the advantage of our approach for rank estimation in challenging regimes. Furthermore, we demonstrate the favorable performance of our approach on several real datasets of single-cell RNA sequencing (scRNA-seq), High-Throughput Chromosome Conformation Capture (Hi-C), and document topic modeling.


翻译:估算腐败数据矩阵的排名是数据分析中的一项重要任务,最突出的是选择五氯苯甲醚组件数量的任务。 使用随机矩阵理论,通过描述大型噪音矩阵的光谱属性,实现了任务的重大进展。 但是,当数据矩阵由随机变量组成时,使用这些工具并不简单,例如Poisson,在这种情况下,噪音可能是扭曲的,每个条目的差别未知。 在这项工作中,我们考虑的是配有独立条目的Poisson随机矩阵,并提议了一个简单的程序,称为\ textit{NAwhite},用于在没有事先任何知识的情况下估算基底信号矩阵(即 Poisson 参数矩阵矩阵矩阵矩阵矩阵)的级别。 但是,我们的方法基于的关键观察,即数据矩阵的行距可以同时缩放随机变量变量变量变量,从而让相应的噪音的频谱与标准 Marchenko-Pastur(MP) 法律一致, 将MP 的上端端端端点用作选择等级的门槛值( ) 。 关键是, 通过观察来直接估算所需的缩缩缩缩缩缩缩图, 通过Sinkmodeal 直系的直系的直径直径, 直径, 直系的直径, 直系的直径, 直系的运行, 直系的运行, 直系的运行的运行的运行的运行的运行的运行的运行的运行的运行, 直系, 直系的运行的运行的运行的运行的运行的运行的运行的运行的运行的运行的运行的运行的运行的运行, 直, 直路, 直系的运行端的运行, 直系的运行的运行端的运行的运行的运行的运行的运行的运行。

0
下载
关闭预览

相关内容

【硬核书】矩阵代数基础,248页pdf
专知会员服务
83+阅读 · 2021年12月9日
【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
47+阅读 · 2021年11月15日
中国无线经济白皮书,49页pdf
专知会员服务
13+阅读 · 2021年10月21日
因果推断,Causal Inference:The Mixtape
专知会员服务
103+阅读 · 2021年8月27日
专知会员服务
49+阅读 · 2021年3月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
已删除
将门创投
8+阅读 · 2019年6月13日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2022年1月7日
Arxiv
6+阅读 · 2020年12月8日
Arxiv
3+阅读 · 2018年10月18日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
【硬核书】矩阵代数基础,248页pdf
专知会员服务
83+阅读 · 2021年12月9日
【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
47+阅读 · 2021年11月15日
中国无线经济白皮书,49页pdf
专知会员服务
13+阅读 · 2021年10月21日
因果推断,Causal Inference:The Mixtape
专知会员服务
103+阅读 · 2021年8月27日
专知会员服务
49+阅读 · 2021年3月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
8+阅读 · 2019年6月13日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员