近日,湖南大学DrugAI实验室在Cell子刊《Cell Reports Methods》上发表名为”Graph Embedding and Gaussian Mixture Variational Autoencoder Network for End-to-End Analysis of Single-Cell RNA-Sequencing Data”的研究论文,提出了一种用于scRNA-seq的“dropout”插补和特征提取的深度学习框架autoCell。autoCel是一种变分自动编码网络,它结合了图嵌入和概率深度高斯混合模型来推断高维稀疏scRNA-seq数据的分布。autoCell提供了一个深度学习工具箱,用于对大规模sc/snRNA-seq数据进行端到端分析,包括可视化、聚类、插补和疾病特异性基因网络识别。
简介
单细胞技术是一项革命性的突破,使我们能够研究组织中每个细胞、每个状态下的基因组、转录组和多组学系统。结合荧光标记和显微解剖等技术,它还可以确定空间属性和细胞间通讯。这些技术得到了广泛应用,引发了基础医学和转化医学的一场革命。
sc/snRNA-seq对于从异质细胞中识别生物学和疾病相关的细胞类型和亚群非常重要。不同细胞状态下表达的低维分析也可以非常有效地重建细胞发育轨迹。然而,单个细胞中的mRNA量很小,需要将其放大近百万倍。尽管测量技术有了很大的改进,但技术因素仍然会在scRNA-seq实验中产生相当大的数据噪声,包括扩增偏差、文库大小差异和极低的捕获率。特别是,极低的RNA捕获率导致无法检测到尽管表达的基因,即“dropout”事件。由“dropout”事件引起的“假”零计数与真零计数之间存在本质区别。鉴于稀疏的表达指标,传统的分析工具无法达到科学的严谨性,并且缺乏高数据可重复性。
在本研究中,作者引入了一个深度学习框架,即autoCell,用于从sc/snRNA-seq数据中进行dropout插补和特征提取。实验表明,autoCell在模拟数据集和具有不同程度人类疾病的生物学相关sc/snRNA-seq数据集中的表现优于其他几种最先进的已发表方法。因此,autoCell是一种可扩展且准确的sc/snRNA-seq数据处理方法。 结果
autoCell模型 autoCel的概述如图1所示。它是一种结合图嵌入和GMM对高维稀疏 scRNA-seq数据的分布进行建模的变分自动编码网络。autoCell架构可以使用细胞和基因的生物表征来执行不同的scRNA-seq数据分析任务。通过集成GMM,autoCell可以更好地估计数据分布。作者应用图嵌入来处理sc/snRNA-seq数据,从而捕获局部数据结构的图形信息是对深度GMM的一个很好的补充,使网络学习成为具有局部结构约束的全局模型。最近的研究表明,用于建模的ZINB分布是解决scRNA-seq数据“dropout”事件的合适工具。为了减少“dropout”事件对高度稀疏和过度分散的计数数据的影响,作者引入了ZINB分布模型,从而对scRNA-seq数据进行去噪。
图1. autoCell模型框架
autoCell有效估算scRNA-Seq数据 在评估autoCell在估算缺失值方面的性能时,作者还选择了两个模拟数据和两个真实世界的 sc/snRNA-seq数据集作为基准,这些数据集具有良好注释的细胞类型。与几种最先进的算法(图2)相比,autoCell在模拟数据集和在真实数据集10%的合成丢失率下实现了由中值L1距离、余弦相似度和RMSE评估的较好的性能。此外,根据估计值和真实值的密度图,autoCell插补更接近真实表达值(图2)。总的来说,autoCell在sc/snRNA-seq数据插补分析中优于最先进的方法。
图2. autoCell与其他最先进方法在缺失值补全方面的性能比较
autoCell显着提高了用于捕获细胞发育轨迹的现有工具的性能 除了识别细胞类型外,scRNA-seq还有助于按时间进程或发育阶段(即细胞轨迹)组织细胞。细胞从一种功能状态转变为另一种功能状态是发育过程中的关键事件。尽管目前存在一些模型可以根据scRNA-seq数据推断细胞发育轨迹,但大多数推断方法都没有解决“dropout”事件。作者测试了通过autoCell插值后推断scRNA-seq数据的细胞轨迹的准确性。使用了一个包含1,529个单细胞的基准数据集,这些单细胞具有从胚胎发生E3到E7的人类植入前胚胎发育的五个阶段的良好注释。在各种插值过程后使用slingshot重建了细胞发育轨迹。autoCell的插值在推断的伪时间和实时细胞发育之间产生了最高的对应关系(图 3)。因此,autoCell在不同发育阶段捕获更准确的转录组动力学和细胞发育轨迹。
图3. autoCell提高了人类植入前胚胎发育数据集中的伪时间分析
autoCell在潜在空间中捕获细胞病理学 作者还评估了autoCell推断的潜在空间能力,这在很大程度上反映了细胞之间的生物变异性,这些变异是基于先前通过无监督聚类将细胞分层为生物学上重要的亚群,然后进行人工检查和注释。作者将autoCell应用于两个模拟数据集和四个生物学相关的scRNA-seq数据集。这六个数据集的零比例在60%到90%之间。默认情况下,autoCell从输入数据中提取10个特征。为了公平比较,作者进一步应用了常见的scRNA-seq数据降维方法,包括scVI、DESC、scVAE、DCA 和SAUCIE,将输入数据降维到10维,并使用UMAP可视化从这些工具和原始数据中提取的特征。对于Klein数据集,scVI、scVAE和autoCell表现出更好的性能,DCA导致细胞类型d0和d2紧密相连。然而,SAUCIE和DESC只分离了细胞类型为d0的细胞,并错误地将细胞类型d7分为两种细胞类型(图4A)。对于Zeisel数据集,作者发现autoCell、scVI和scVAE仍然优于其他模型,autoCell和scVAE实现了更近的组内距离(图4B)。
作者将K-means聚类应用于autoCell提取的潜在特征,并通过与scVI、DESC、scVAE、DCA和SAUCIE进行比较来评估聚类精度。实验表明autoCell在所有测试的scRNA-seq数据集上显示出最佳性能(图4)。在Klein数据集中,使用autoCell(图4C)的聚类输出与预定义的单位类型注释(NMI=0.882,ARI=0.907)比排名第二的模型scVI(NMI=0.832,ARI=0.784)更为一致。在Zeisel数据集中,autoCell的聚类性能明显优于其他现有工具。总体而言,autoCell在捕获细胞病理生物学方面的准确度高于模拟和真实世界生物相关scRNA-seq数据集的现有最先进方法。
图4. UMAP可视化使用不同方法提取的特征
通过autoCell发现细胞类型特异性分子网络 在测试autoCell推断的细胞类型是否能够捕获人类疾病的特定病理生物学时,作者使用阿尔茨海默病(AD)作为原型,分析了星形胶质细胞、小胶质细胞、神经元和少突胶质细胞祖细胞(OPC)。总之,作者重新分析了从AD大脑和健康对照的内嗅皮层产生的13214个高质量细胞核。使用autoCell,作者确定了四个小胶质细胞簇、九个星形胶质细胞簇和五个OPC簇(图5A)。最近使用人类死后脑组织的研究确定了疾病相关星形胶质细胞(DAA)在AD发病机制和疾病进展中的关键作用。使用11个经实验验证的DAA标记基因(4个上调的标记基因[GFAP、CD44、HSPB1和TNS]和7个下调的标记基因[SLC1A2、SLC1A3、GLUL、NRXN1、CADM2、PTN和GPC5]),作者通过autoCell将星形胶质细胞亚群4鉴定为DAA。接下来,作者在人类蛋白质-蛋白质相互作用(PPI)网络模型下,使用最先进的基于网络的算法GPSnet构建了DAA特异性分子网络。DAA特异性模块网络包括由44种蛋白质连接的50个PPI,如APOE、MAPT、CD44、FOS和STAT3(图5B和表S2)。APOE和MAPT(微管相关蛋白Tau)是AD的两个最著名的风险基因。CD44是一种炎症相关蛋白。CD44的抑制可能是AD治疗的潜在策略。在一项小鼠模型研究中,Stat3缺陷和Stat3缺失的星形胶质细胞表现出β-淀粉样蛋白和促炎细胞因子活性水平下降。DAA特异性分子网络中的蛋白质由多种AD相关途径富集,如细胞因子信号传导、脊髓损伤和脑源性神经营养因子信号传导途径(图5B和表S3)。例如,DAA特异性网络中的几种蛋白质(STAT3、MAPT、HSPB8、HSPB1、JUNB和LINGO1)富含多种细胞因子信号通路,包括IL-5、IL-2、IL-18、IL-3和IL-4,这与小胶质细胞介导的神经炎症在AD中的重要作用一致。因此,使用autoCell,作者可以识别与疾病相关的、细胞类型特异性的分子网络,这些分子网络参与了AD的关键病理生物学。
作者还发现了AD中参与细胞-细胞通信的重要配体-受体相互作用。首先使用autoCell推断了细胞亚群,并使用CellChat预测了配体-受体的相互作用。如图5C所示,与其他三种细胞类型(神经元、小胶质细胞和内皮细胞)相比,作者发现星形胶质细胞、OPC和少突胶质细胞之间存在强烈的配体-受体相互作用。两个配体-受体对(NRG3-ERBB4和NRG1-ERBB4)显示了跨多个细胞-细胞对的强相互作用(图5D和表S4)。发现NRG3基因中的多个单核苷酸多态性与AD 的发病有关。此外,发现神经元中ERBB4的过度表达与AD神经病理学相关。最近的一项AD小鼠模型研究发现,NRG1和ERBB4的免疫反应性与海马区的斑块有关。使用AD作为典型例子,作者证明了autoCell识别的疾病相关细胞亚型可以识别参与AD发病机制的分子靶点和网络(即配体-受体相互作用),如果广泛应用,可以为AD或其他人类疾病提供潜在的药物靶点。
图5. 使用autoCell发现阿尔茨海默病(AD)中细胞类型特异性分子网络和重要配体受体相互作用
总结
作者提出了一种用于scRNA-seq数据特征提取和缺失插补的深度模型autoCell。autoCell的关键创新是使用GMM来估计数据的潜在特征分布。与VAE在scRNA-Seq数据分析中的先前应用相比,autoCell通过引入图嵌入来捕获数据局部结构的图形信息。这是对深度GMM的极好补充,它允许网络学习遵循具有局部结构约束的全局模型。为了减少“dropout”事件的影响,作者引入了ZINB分布,该分布可以对高度稀疏和过度分散的计数数据进行建模,从而对单细胞RNA数据进行去噪。通过模拟数据集和真实数据集的系统比较,autoCell实现了更好的插值性能和特征提取。此外,作者还表明,与其他插补算法不同,autoCell可以在处理大型数据集时提供更大的灵活性。 参考资料 Xu J, et al. Graph Embedding and Gaussian Mixture Variational Autoencoder Network for End-to-End Analysis of Single-Cell RNA-Sequencing Data[J].Cell Reports methods, 2023: https://doi.org/10.1016/j.crmeth.2022.100382