We introduce a probabilistic model, called the "logistic-tree normal" (LTN), for microbiome compositional data. The LTN marries two popular classes of models -- the logistic-normal (LN) and the Dirichlet-tree (DT) -- and inherits the key benefits of both. LN models are flexible in characterizing rich covariance structure among taxa but can be computationally prohibitive in face of high dimensionality (i.e., when the number of taxa is large) due to its lack of conjugacy to the multinomial sampling model. On the other hand, DT avoids this issue by decomposing the multinomial sampling model into a collection of binomials, one at each split of the phylogenetic tree of the taxa, and adopting a conjugate beta model for each binomial probability, but at the same time the DT incurs restrictive covariance among the taxa. In contrast, the LTN model decomposes the multinomial model into binomials as the DT does, but it jointly models the corresponding binomial probabilities using a (multivariate) LN distribution instead of betas. It therefore allows rich covariance structures as the LN models, while the decomposition of the multinomial likelihood allows conjugacy to be restored through the P\'olya-Gamma augmentation. Accordingly, Bayesian inference on the LTN model can readily proceed by Gibbs sampling. Moreover, the multivariate Gaussian aspect of the model allows common techniques for effective inference on high-dimensional data -- such as those based on sparsity and low-rank assumptions in the covariance structure -- to be readily incorporated. Depending on the goal of the analysis, the LTN model can be used either as a standalone model or embedded into more sophisticated models. We demonstrate its use in estimating taxa covariance and in mixed-effects modeling. Finally, we carry out a case study using an LTN-based mixed-effects model to analyze a longitudinal dataset from the DIABIMMUNE project.


翻译:我们引入一种概率模型, 称为“ 逻辑树正常” (LTN), 用于微生物构成数据。 LTN 将两个受欢迎的模型类别 -- -- 后勤正常( LN) 和 Dirichlet- tree (DT) -- -- 并继承这两种模型的主要好处。 LN 模型在给分类中富多变结构的特征上具有灵活性,但在面临高维度( 即, 当税级数量很大时), 计算起来会令人难以接受。 相比之下, LTN 模型将多数值模型与多数值采样模型混在一起。 另一方面, DT 将多数值采样模型分解为两种受欢迎的模型 -- -- 后勤正常( LNN) 将多数值采样模型分解为双数, 在分类树分立树的每个树上都有一个分选, 并且对于每个二元概率概率概率概率的概率模型可以产生限制性的变数模型。 它可以在税级模型中将多数值模型分化成一个双数,, 在数据模型中, 将多数值模型作为数据模型在 IMDI 的模型中,,, 将比喻的模型在模型里基数据化一个基结构中,,, 将一个比值模型可以使 数据化为自动变化一个基 数据 数据 数据 数据化为 。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
76+阅读 · 2021年1月7日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Bridging factor and sparse models
Arxiv
0+阅读 · 2021年9月1日
VIP会员
Top
微信扫码咨询专知VIP会员