【30页综述和代码实现】基于深度学习的生物信息学应用及展望- 专知

【30页综述和代码实现】基于深度学习的生物信息学应用及展望

【导读】深度学习下一个深刻改变的领域可能就是其在医疗以及生物学相关问题上的应用。在相关论文预印本网站bioRxiv上，沙特阿卜杜拉国王科技大学的华人团队发表综述文章，详细介绍了近些年深度学习在生物信息领域的最新研究成果。从此文中可以看出当前深度学习在该领域的挑战和局限，也可以全面的了解深度学习在计算生物学，医学影像及生物信息等学科所具有的广泛应用场景。这篇综述也提供了入门基于深度学习的生物信息学各种代码示例，涵盖了5个生物信息学的研究方向和所有4种数据类型，并使用Tensorflow和Keras来实现，是初学者入门这个领域比较好的一个资料。

深度学习在生物信息学应用论文及代码合集

https://github.com/hussius/deeplearning-biology

题目：Deep learning in bioinformatics: introduction, application, and perspective in big data era

作者：Yu Li, Chao Huang, Lizhong Ding, Zhongxiao Li, Yijie Pan, Xin Gao

【摘要】深度学习在处理大数据方面尤为强大，在生物信息学等各个领域都取得了巨大的成功。随着生物领域大数据时代的进步，可以预见，深度学习在该领域将变得越来越重要，并将被纳入大量的分析流程中。在这篇综述中，我们提供了深度学习的深入介绍，以及其在生物信息学中的代表性应用的具体实例和实现。本文从生物信息学领域的深度学习的最新成果入手，指出了应用深度学习应注意的问题。之后，我们将以一种易于理解的方式介绍深度学习，从浅层神经网络到传奇的卷积神经网络、递归神经网络、图神经网络、生成对抗网络、变分自编码器，以及最新的最先进的架构。在此之后，我们提供了8个例子，涵盖了5个生物信息学的研究方向和所有4种数据类型，并使用Tensorflow和Keras来实现。最后，我们讨论了用户在采用深度学习方法时会遇到的一些常见问题，如过拟合和可解释性，并给出了相应的建议。这些实现可以在https://github.com/lykaust15/Deep_learning_examples上免费获得。

参考链接：

https://www.biorxiv.org/content/10.1101/563601v1

代码链接：

https://github.com/lykaust15/Deep_learning_examples

请关注专知公众号（点击上方蓝色专知关注）

后台回复“深度学习生物信息学” 就可以获取最新论文的下载链接~

引言

当前，深度学习已经清楚地证明了它在促进生物信息学领域的作用[104,5,18]，包括序列分析[198,3,25,156,87,6,80,169,157,158,175]，结构预测和重建[167,90,38,168,180,196,170]，生物分子特性和功能预测[85,204,75,4]，生物医学图像处理和诊断[35,66,41,22,160]和生物分子相互作用预测和系统生物学[95,201,203,144,145,67,165,191]。

与浅层嵌入相比，文献48提出基于深度学习的嵌入方法，以树的方式聚合节点邻居的信息，具有较少的参数并且能够结合领域知识。可以看出，当我们将数据输入模型时，深度学习非常善于处理原始数据，它可以端到端进行特征提取和分类，自动确定重要的高层特征。对于已经经历特征提取过程的结构化数据，深度学习可能不会显著提高性能。然而，只要对超参数进行仔细的调优，其效果并不比传统的方法（比如支持向量机SVM）差。

表2总结了深度学习在这些研究方向和数据集中的应用。

考虑到深度学习在促进生物信息学研究方面的巨大潜力，为了促进其发展和应用，在本综述中，我们将首先详细深入地介绍深度学习（第2节）,从浅层神经网络到深层神经网络及其上述变体,适用于生物数据分析。之后, 我们提供一些具体的例子(第3节),并在Github上实现, 包括五个生物信息学研究方向（序列分析，结构预测和重建，生物分子属性和功能预测，生物医学图像处理和诊断，以及生物分子相互作用预测）和系统生物学）和所有四种类型的数据（1D序列，2D图像和轮廓，图形和预处理数据）。

在网络类型方面，这些例子将涵盖全连接神经网络、标准卷积神经网络(CNN)[72]、递归神经网络(RNN)[103]、残差网络(ResNet)[53]、生成对抗网络(GAN)[43]、变分自编码器(VAE)[30]和图卷积神经网络(GCN)[69]。在这些具体的例子之后, 我们将讨论研究人员在使用深度学习时可能遇到的潜在问题以及相应的可能解决方案（第4节），包括过度拟合（第4.2节），数据问题（第4.1和4.3节），可解释性（第4.4节），不确定性缩放（第4.5节），灾难性遗忘（第4.6节）和模型压缩（第4.7节）。

2、从浅层神经网络到深度学习

在本节中，我们将首先介绍浅层神经网络的形式及其核心组件(第2.1节)。之后，我们将介绍标准CNN和RNN的关键组件(第2.2节)。由于标准的CNN和RNN在过去的几年中有了很大的改进，我们也将介绍一些最新的架构(第2.3节)，包括ResNet, DenseNet和SENet[58]。在介绍了常规1D和2D数据的体系结构之后，我们引入了用于处理网络数据的图神经网络(第2.4节)。然后，我们介绍了两个重要的生成模型GAN和VAE (第2.5节)，这两个模型可以用于生物医学图像处理和药物设计。最后，我们概述了当前可用的框架，这些框架使深度学习的应用对于构建深度学习模型非常方便(第2.6节)。

图1是浅层神经网络的结构。

图2 详细地展示了CNN内部的卷积层和其结构。

图3展示了循环神经网络结构。

图4展示了前沿的不同卷积神经网络在图像应用上的深度网络架构。

在2.4节中，本文简要介绍用图神经网络来处理网络数据，网络数据是生物信息学中常见的数据类型。

图5展示了图神经网络的应用示例。（A）图形数据的典型示例。（B）嵌入空间。在该嵌入空间中，每个数据点由向量表示，而（A）中的原始拓扑信息保留在该向量中。（C）用于在（A）中嵌入网络的图神经网络。我们使用节点a和b作为示例。每个节点的内部属性被视为原始表示。在每一层中，节点聚合来自其邻居的信息，并使用平均和激活函数更新表示。

图6是GAN的图示。在GAN中，我们有一对网络同时相互竞争。生成器网络负责生成新的数据点（本例中的酶序列）。判别器网络试图将生成的数据点与实际数据点区分开。

图7:(A)自编码器示意图，由编码器和解码器组成。编码器网络将输入压缩到潜在向量中，解码器网络从潜在向量中重构数据。(B)变分自编码器说明。

3、代码实现

代码实现地址：

https://github.com/lykaust15/Deep_learning_examples

能看到代码实现示例包括五个生物信息学研究方向（序列分析，结构预测和重建，生物分子属性和功能预测，生物医学图像处理和诊断，以及生物分子相互作用预测）和系统生物学）和所有四种类型的数据（1D序列，2D图像和轮廓，图形和预处理数据）。在网络类型方面，这些例子将涵盖全连接神经网络、标准卷积神经网络(CNN)[72]、递归神经网络(RNN)[103]、残差网络(ResNet)[53]、生成对抗网络(GAN)[43]、变分自编码器(VAE)[30]和图卷积神经网络(GCN)[69]。值得初学者收藏学习，是生物信息学深度学习入门的基础。