今天为大家带来的是发表在《Briefings in Bioinformatics》的文章《Biological network analysis with deep learning》,是一篇综述类文章。
摘要
这篇文章中描述了生物网络,并回顾了神经网络的原理和基本算法。然后讨论了目前生物信息学中图形神经网络经常应用的领域,如蛋白质结构预测和电子药物发现和开发。最后,该文章强调了基因调控网络和疾病诊断等应用领域,在这些领域中,深度学习正作为一种新工具出现,用来解决经典问题。
**1.**背景
深度学习的优势之一是它能够检测数据中的复杂模式,这使得它非常适合于生物信息学的应用,在生物信息学中,数据代表了生物实体和过程之间复杂的、相互依赖的关系,这些实体和过程通常具有内在的噪声,并且发生在多个尺度上。并且,深度学习方法已经扩展到图结构数据,使其成为解决这些生物网络分析问题的很有前途的技术。这篇文章先介绍了生物网络,然后描述了生物网络上典型学习任务,最后讨论了GNNs在生物信息学中最受欢迎的应用任务。
DNA、RNA、蛋白质和代谢物在生命细胞过程的分子机制中起着至关重要的作用。这些实体的结构和相互作用都可以用一个图来表示,该图由一组节点和一组表示节点之间连接的边组成。例如,分子可以表示为一个图形,其中节点是原子,边是原子之间的键。类似地,许多生物过程可以用作为节点的实体和作为边的它们之间的相互作用或关系来建模。网络为异构和复杂的生物过程提供了简单直观的表示。此外,它通过使用图论、机器学习和深度学习技术来促进建模和理解复杂的分子机制。 就像前面提到的,我们可以在不同的层次上定义生物网络。除了用于研究分子特性和功能的生物因素的图形表示之外,其他常见的生物网络包括蛋白质-蛋白质相互作用(PPI)网络、基因调节网络(GRN)、代谢网络和药物-药物相互作用(DDI)网络。接下来将会简要介绍这些网络。 **Protein-Protein Interaction Networks **PPI网络代表蛋白质之间的相互作用。PPIs对几乎所有细胞功能都是必不可少的,从细胞结构成分的组装,到转录、翻译和主动转运等过程。在PPI网络中,节点对应于蛋白质,而边定义了连接蛋白质之间的相互作用。 **Gene Regulatory Networks **GRN代表了调节基因表达的复杂机制。调节机制发生在DNA产生蛋白质的不同阶段,如转录、翻译和剪接阶段。对这些复杂且相互关联的机制的直观解释是,蛋白质既是基因表达的产物,也是基因表达的控制者。在GRNs中,每个节点代表一个基因,两个基因之间的直接联系代表着一个基因直接调节另一个基因的表达,而没有其他基因的介导。 **Metabolic Networks **代谢网络使用图来表示新陈代谢,新陈代谢是生物体内发生的维持生命的所有化学反应的集合。鉴于其复杂性,代谢网络通常被分解为代谢途径,即与执行特定代谢功能相关的一系列化学反应。代谢网络中将每种代谢物映射到一个节点,将每种反应映射到以酶作为催化剂的有向边。 **Drug–Drug Interaction Networks **DDI网络的目标是模拟不同药物之间的相互作用。DDI网络以节点表示药物,以边表示药物之间的相互作用。与以前的网络不同,DDI网络不代表生物过程。然而,由于它是药物相互作用知识的有意义的表示,导致研究人员对DDI网络越来越感兴趣。事实上,DDI网络被广泛用于多药物研究。
3. Learning tasks on graphs
关于图的学习任务在较高层次上分为节点分类、链接预测、图分类和图嵌入,接下来将详细的解释每一个任务。 **Node Classification **节点分类是生物网络分析中的一个典型任务,其根据蛋白质相互作用网络中邻居的功能来预测蛋白质的未知功能。输入图包含一些带标签的节点,但许多节点没有标签,目标是对网络中剩余的没有标签的节点进行分类。这通常通过半监督学习来解决,其中算法在训练过程中使用整个网络作为输入,目标是对所有节点进行分类。虽然所有节点都将被分类,但是在训练期间,仅在具有真实标签的节点上计算损失,以便对剩余的未标记的节点进行分类。 Link Prediction目前关于生物网络中相互作用的知识通常是不完整的,例如哪些基因在基因调控网络中调节另一个基因的表达。预测这些缺失的边就是链接预测。这是一个半监督学习问题,通过图中已知的链接来预测可能存在的其他链接。 Graph Classification or Regression 当生物网络数据由多个单独的网络组成时,例如分子的3D结构数据集,目标变为预测每个网络的属性,例如分子的溶解度或毒性。这个任务被称为图形分类,它将图形数据集作为输入,然后对每个单独的图形执行分类(或回归)。这是最常见的监督学习问题。 Graph Embedding 图嵌入是一种寻找图的低维,用固定大小的向量来表示图的方法,例如PPI网络,或者网络中的元素,例如蛋白质。这通常是通过无监督学习实现的。将给定的节点或图形表示为固定大小的向量从而使图形能够使用任何现成的机器学习算法。在对特定任务使用标准机器学习算法之前,学习图形嵌入通常被用作预处理步骤。
**Protein structure prediction **根据蛋白质的遗传序列预测蛋白质的3D结构,也称为蛋白质折叠问题。AlphaFold代表了一种突破性的方法,它为深度学习和传统方法设定了一个新的基线。和其他方法一样,AlphaFold从氨基酸序列开始,作为预测3D结构的基础。该输入与从蛋白质数据库收集的其他特征信息相结合,并使用CNN来预测所有氨基酸对之间距离的离散概率分布,以及扭转角的概率分布。与以前仅预测两个残基是否通过一个链接连接的方法相比,预测距离及其相应的分布产生了更准确的结果。它使用距离和扭转角,以及预测原子重叠的惩罚,来评估他们预测的质量,称为潜力。然后执行随机梯度下降,迭代地改进他们的模型。使用这种方法产生了非常好的结果,并且让人们深入了解了深度学习在解决一些具有挑战性的生物信息学问题方面的潜力。 **Disease diagnosis **在过去的几年里,利用深度学习进行疾病诊断引起了研究界的极大兴趣。然而,使用生物网络这种方法的则是少数。有研究人员提出通过将光谱聚类和中枢神经系统结合,整合出了基因表达数据的PPIs网络来预测肺癌。其尝试了所提出的方法的不同配置,以确定性能最好的方法,并从准确性、精确度和召回率方面评估他们的方法。 此外,Rhee等人提出了另一个在生物网络上进行深度学习的例子,以进行乳腺癌子类型分类。他们的方法整合了一个GCN和一个关系网络,并吸收了一个富含基因表达数据的PPIs网络。利用GCN,他们的方法能够学习局部图信息,而RN的使用允许捕捉节点集之间的复杂模式。将GCN输出和RN输出相结合以获得分类结果。将该方法与支持向量机、随机森林、k近邻、多项式和高斯朴素贝叶斯进行了比较,并通过蒙特卡罗交叉验证实验获得了性能。结果表明,所提出的方法在所有使用的指标上都优于基线,表明通过GCN学习PPIs网络特征表示可以显著帮助捕获基因表达数据中的模式。 接下来的两个例子是分别使用RNA-disease和基因-疾病关联网络的应用。有学者提出了一种方法,其输入是表示疾病和RNAs之间关联的图形,称为RNAs-疾病网络。作者使用GCN结合图形注意网络来捕捉输入的全局和局部结构信息,目的是预测RNA-疾病的相关性。为了达到这个目的,作者提出了两个GCNs和一个矩阵分解的组合。疾病、基因特征和相似图被赋予两个并行的基因控制网络,通过内积将其获得的嵌入组合起来进行预测。
5.总结
虽然深度学习方法很有前景,但也存在局限性和许多有待解决的问题。深度学习的主要问题之一是缺乏可解释性,因为深度学习算法具有黑箱性质,如果对预测过程没有足够的理解,医生和患者通常不太可能相信深度学习模型的输出。另一个问题是需要大型标记数据集,因为深度神经网络有大量的超参数需要调整。 尽管存在这些挑战,但对图形的深度学习仍然是一个活跃的研究领域,并且已经在各种生物信息学科中取得了令人兴奋的成果。因此,让我们一同期待深度学习在生物网络分析方面的持续发展。