Matrix factorization methods - including Factor analysis (FA), and Principal Components Analysis (PCA) - are widely used for inferring and summarizing structure in multivariate data. Many matrix factorization methods exist, corresponding to different assumptions on the elements of the underlying matrix factors. For example, many recent methods use a penalty or prior distribution to achieve sparse representations ("Sparse FA/PCA"). Here we introduce a general Empirical Bayes approach to matrix factorization (EBMF), whose key feature is that it uses the observed data to estimate prior distributions on matrix elements. We derive a correspondingly-general variational fitting algorithm, which reduces fitting EBMF to solving a simpler problem - the so-called "normal means" problem. We implement this general algorithm, but focus particular attention on the use of sparsity-inducing priors that are uni-modal at 0. This yields a sparse EBMF approach - essentially a version of sparse FA/PCA - that automatically adapts the amount of sparsity to the data. We demonstrate the benefits of our approach through both numerical comparisons with competing methods and through analysis of data from the GTEx (Genotype Tissue Expression) project on genetic associations across 44 human tissues. In numerical comparisons EBMF often provides more accurate inferences than other methods. In the GTEx data, EBMF identifies interpretable structure that concords with known relationships among human tissues. Software implementing our approach is available at https://github.com/stephenslab/flashr


翻译:矩阵要素化方法,包括系数分析(FA)和主元件分析(PCA),被广泛用于多变量数据中的推算和总结结构。许多矩阵要素化方法存在,与基本矩阵要素要素的不同假设相对应。例如,许多近期方法使用惩罚或先前分配,以达到稀散的表示方式(“Sparse FA/PCA”)。我们在这里对矩阵要素化采用一般的 Epirital Bayes 方法(EBMF 方法),其主要特征是,它使用观察到的数据来估计在矩阵要素中先前的分布。我们得出了对应的通用变异配置算法,这减少了EBMF适合解决一个更简单的问题的能力化方法,即所谓的“正常手段”问题。我们采用这种一般算法,但特别侧重于使用松散性前的表示方式(“Sparse FA/PCA” 方法),这导致一种稀疏的 EBMFA/PCA方法, 其关键特征是,它自动调整了矩阵方法的容积度。我们的方法的好处是通过相互竞争的方法进行数字比较,并且通过分析从已知的EGTFABIS组织中的数据分析, 通常是使用EGTFAFA 。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
162+阅读 · 2020年11月13日
专知会员服务
52+阅读 · 2020年9月7日
【干货51页PPT】深度学习理论理解探索
专知会员服务
61+阅读 · 2019年12月24日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
已删除
将门创投
3+阅读 · 2018年11月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
9+阅读 · 2021年6月21日
Arxiv
0+阅读 · 2021年6月19日
Arxiv
1+阅读 · 2021年6月18日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
162+阅读 · 2020年11月13日
专知会员服务
52+阅读 · 2020年9月7日
【干货51页PPT】深度学习理论理解探索
专知会员服务
61+阅读 · 2019年12月24日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
3+阅读 · 2018年11月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Top
微信扫码咨询专知VIP会员