We study the problem of detecting the correlation between two Gaussian databases $\mathsf{X}\in\mathbb{R}^{n\times d}$ and $\mathsf{Y}^{n\times d}$, each composed of $n$ users with $d$ features. This problem is relevant in the analysis of social media, computational biology, etc. We formulate this as a hypothesis testing problem: under the null hypothesis, these two databases are statistically independent. Under the alternative, however, there exists an unknown permutation $\sigma$ over the set of $n$ users (or, row permutation), such that $\mathsf{X}$ is $\rho$-correlated with $\mathsf{Y}^\sigma$, a permuted version of $\mathsf{Y}$. We determine sharp thresholds at which optimal testing exhibits a phase transition, depending on the asymptotic regime of $n$ and $d$. Specifically, we prove that if $\rho^2d\to0$, as $d\to\infty$, then weak detection (performing slightly better than random guessing) is statistically impossible, irrespectively of the value of $n$. This compliments the performance of a simple test that thresholds the sum all entries of $\mathsf{X}^T\mathsf{Y}$. Furthermore, when $d$ is fixed, we prove that strong detection (vanishing error probability) is impossible for any $\rho<\rho^\star$, where $\rho^\star$ is an explicit function of $d$, while weak detection is again impossible as long as $\rho^2d\to0$. These results close significant gaps in current recent related studies.
翻译:我们研究两个高斯数据库($\ mathsfsf{X ⁇ {X}in\mathbb{R ⁇ n\timeddd}$0美元和美元=mathsf{Y ⁇ n\timedd}$(美元)之间的相关性。 这个问题在分析社交媒体、计算生物学等时具有相关性。 我们将此设计成一个假设测试问题: 在无效假设下, 这两个数据库在统计上是独立的。 但是,在替代方案下, 在一套美元( 美元) 和美元( 美元) 的数据集中, 存在一个未知的变价( 美元) 。 例如, 美元=mathsf{Y} 美元( 美元) 美元( 美元) 和 美元( 列方) 美元( 美元) 美元( 美元) 美元( 美元) 和 美元( 美元) 美元( 美元) 美元( 美元), 美元( 美元) 美元( 美元) 美元( 美元( 美元) 美元( 美元) 美元( 美元( 美元) 美元( 美元) 美元( 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元( 美元) 美元) 美元( 美元) ( 美元( 美元) ) 美元) 的最近( 的货币( 的货币( ) 的货币( ) 的货币( ) 的货币( ) ( ) ) ) ( ) ) ( 的货币( 美元( 美元( 美元) 美元) 美元( ) ) ( ) ) ) ) ) ( ) ( ) ) ( ) ( ) ( ) ) ) ) (, 美元( 美元( 美元( ) 美元( ) 美元( 美元( ) ) ( ) ) ) ) ) ( 美元( 美元( ) ) ( 美元( ) ) 美元( 美元( 美元( 美元) 美元) ( 美元) 美元)