下一代测序技术已经将生物学领域推向了大数据时代,而计算技术的不断进步现在已经使探索复杂的生物系统变得更加容易。然而,用传统的机器学习算法来分析这种高度复杂的数据可能会很麻烦,因为这些技术需要相当多的特征工程。幸运的是,机器学习的一个子领域,即深度学习,最近已经显示出克服这些问题的证据。这种算法最初被应用于基因组和转录组环境。然而,测序技术的进步已经使蛋白质组学成熟到深度学习现在是一个可行的选择。这篇论文将主要考虑深度学习在模拟蛋白质的各种属性方面的应用。
尽管深度学习解决了在分析Omic数据时遇到的一些初步问题,但在应用深度学习算法时仍然存在着一系列不同的挑战。即使使用最新的方法,深度学习模型也常常需要大量的标记数据,而这些数据的获取可能是高成本和耗时的。如果没有足够的数据量,那么与传统机器学习算法相比,标准的深度学习方法往往表现不佳。另外,这些模型是黑盒算法,这给模型所产生的预测的解释带来了问题。
鉴于蛋白质内部的差异性,要有效地总结数据是很困难的,因为有关蛋白质的信息可能会因特征工程而丢失。在本论文的每个研究章节中,通过使用深度学习,我们解决了应用传统机器学习来为蛋白质数据建模的缺点。在第一个技术章节中,我们首先使用了最先进的子词编码方案。我们证明,与标准基线相比,这些新的表征对预训练更有利、更实用。在下一章中,我们更进一步,解决将深度学习模型应用于较小的数据集的问题。在此过程中,我们探讨了如何利用度量学习来形成一个强大的模型架构,该架构能够从少数标记的例子中学习并对蛋白质进行排名。之后,我们考虑了一种同时利用预训练和公因子学习的方法,通过使用大型无监督网络达到新的最先进水平。在这一章中,我们利用在大量蛋白质组学数据上预训练的BERT模型,只用少量的数据对回归任务的集合进行建模。我们采用三重网络结构来为每个数据集微调BERT模型,并评估其在一组下游任务上的表现。所提到的前三个策略在各种下游任务上进行了测试:四个蛋白质特性预测任务(质膜定位、热稳定性、吸收峰值波长、对映选择性)。
此外,本论文还包括另外两章,考虑了在对蛋白质数据建模时遇到的其他挑战。这一章首先介绍了应用预训练来提高磷酸化位点建模的最先进水平,使用了一个全新的基于卷积变换器的模型。我们在一般的磷酸化位点数据集和各种特定的激酶数据集上评估我们的方法。此外,为了强调这是一个白盒深度学习的例子,我们将模型的特征可视化,以获得对每个站点预测背后的更好理解。
最后一个研究章节考虑了为蛋白质和药物之间的相互作用建模的最先进方法。在这一章中,我们利用了一组BERT式的模型,这些模型已经在大量的蛋白质和药物数据上进行了预训练。然后,每个模型产生的编码被用作图卷积神经网络的节点表示,该网络反过来对相互作用进行建模,而不需要同时对蛋白质和药物BERT模型进行微调来完成任务。我们在两个药物-目标相互作用数据集上评估了我们的方法的性能,这两个数据集在最近的工作中曾被用作基准。