This paper develops a Bayesian graphical model for fusing disparate types of count data. The motivating application is the study of bacterial communities from diverse high dimensional features, in this case transcripts, collected from different treatments. In such datasets, there are no explicit correspondences between the communities and each correspond to different factors, making data fusion challenging. We introduce a flexible multinomial-Gaussian generative model for jointly modeling such count data. This latent variable model jointly characterizes the observed data through a common multivariate Gaussian latent space that parameterizes the set of multinomial probabilities of the transcriptome counts. The covariance matrix of the latent variables induces a covariance matrix of co-dependencies between all the transcripts, effectively fusing multiple data sources. We present a computationally scalable variational Expectation-Maximization (EM) algorithm for inferring the latent variables and the parameters of the model. The inferred latent variables provide a common dimensionality reduction for visualizing the data and the inferred parameters provide a predictive posterior distribution. In addition to simulation studies that demonstrate the variational EM procedure, we apply our model to a bacterial microbiome dataset.
翻译:本文开发了一个用于引信不同类型计数数据的贝叶西亚图形模型。 激励性应用是对不同处理方法收集的不同高维特征( 本案中的记录誊本)的细菌群落进行研究。 在这样的数据集中, 社区之间没有明确的对应, 每个社区之间没有对应不同因素的明确对应, 使得数据融合具有挑战性。 我们为联合模拟这种计数数据引入了一个灵活的多数值- Gaussian 基因化模型。 这个潜伏变量模型通过一个共同的多变量 Gaussian 潜伏空间共同描述观测到的数据。 这个潜在变量模型通过一个共同的多变量高斯山潜伏空间来描述观察到的数据。 潜在变量的变量组合将数据集的多数值概率概率概率化。 潜伏变量的变量的变量组合使所有笔录之间具有共变量的共变式矩阵, 有效地利用多种数据源。 我们提出了一个可计算可缩放的变数- 期待- 最大值算法, 用以推断潜在变量和模型参数。 推断潜在变量提供了一种共同的维度减少数据, 和推断参数的参数提供了一种模型的预测性后代微生物分布。 在模拟研究中, 我们的模型中还应用了一种数据变换。