Estimating and storing the covariance (or correlation) matrix of high-dimensional data is computationally challenging because both memory and computational requirements scale quadratically with the dimension. Fortunately, high-dimensional covariance matrices as observed in text, click-through, meta-genomics datasets, etc are often sparse. In this paper, we consider the problem of efficient sparse estimation of covariance matrices with possibly trillions of entries. The size of the datasets we target requires the algorithm to be online, as more than one pass over the data is prohibitive. In this paper, we propose Active Sampling Count Sketch (ASCS), an online and one-pass sketching algorithm, that recovers the large entries of the covariance matrix accurately. Count Sketch (CS), and other sub-linear compressed sensing algorithms, offer a natural solution to the problem in theory. However, vanilla CS does not work well in practice due to a low signal-to-noise ratio (SNR). At the heart of our approach is a novel active sampling strategy that increases the SNR of classical CS. We demonstrate the practicality of our algorithm with synthetic data and real-world high dimensional datasets. ASCS significantly improves over vanilla CS, demonstrating the merit of our active sampling strategy.


翻译:估算和储存高维数据的共变(或相关关系)矩阵在计算上具有挑战性,因为记忆和计算要求的尺度都与维度相仿。幸运的是,在文本中观察到的高维共变矩阵、点击通、元基因组数据集等往往很少。在本文件中,我们考虑了以数万亿个条目对共变矩阵进行高效少估的问题。我们的目标数据集的大小要求算法是在线的,因为超过数据的一个通过量令人望而却望而却步。在本文中,我们建议采用一种在线和一流的绘图算法,即主动采集共变数矩阵的大条目。 计数Schach(CS)和其他子线性压缩测算算算法,为理论问题提供了自然的解决方案。然而,由于信号到噪音比率低(SNRR),vanilla CS在实际操作上并不奏效。我们的方法的核心是新的积极取样战略,这增加了CNS的S级CR。我们展示了我们对SS的高度数据进行高水平的合成算法。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年4月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2014年10月9日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Top
微信扫码咨询专知VIP会员