下一代测序技术已经将生物学领域推向了大数据时代,而计算技术的不断进步现在已经使探索复杂的生物系统变得更加容易。然而,用传统的机器学习算法来分析这种高度复杂的数据可能会很麻烦,因为这些技术需要相当多的特征工程。幸运的是,机器学习的一个子领域,即深度学习,最近已经显示出克服这些问题的证据。这种算法最初被应用于基因组和转录组环境。然而,测序技术的进步已经使蛋白质组学成熟到深度学习现在是一个可行的选择。这篇论文将主要考虑深度学习在模拟蛋白质的各种属性方面的应用。

尽管深度学习解决了在分析Omic数据时遇到的一些初步问题,但在应用深度学习算法时仍然存在着一系列不同的挑战。即使使用最新的方法,深度学习模型也常常需要大量的标记数据,而这些数据的获取可能是高成本和耗时的。如果没有足够的数据量,那么与传统机器学习算法相比,标准的深度学习方法往往表现不佳。另外,这些模型是黑盒算法,这给模型所产生的预测的解释带来了问题。

鉴于蛋白质内部的差异性,要有效地总结数据是很困难的,因为有关蛋白质的信息可能会因特征工程而丢失。在本论文的每个研究章节中,通过使用深度学习,我们解决了应用传统机器学习来为蛋白质数据建模的缺点。在第一个技术章节中,我们首先使用了最先进的子词编码方案。我们证明,与标准基线相比,这些新的表征对预训练更有利、更实用。在下一章中,我们更进一步,解决将深度学习模型应用于较小的数据集的问题。在此过程中,我们探讨了如何利用度量学习来形成一个强大的模型架构,该架构能够从少数标记的例子中学习并对蛋白质进行排名。之后,我们考虑了一种同时利用预训练和公因子学习的方法,通过使用大型无监督网络达到新的最先进水平。在这一章中,我们利用在大量蛋白质组学数据上预训练的BERT模型,只用少量的数据对回归任务的集合进行建模。我们采用三重网络结构来为每个数据集微调BERT模型,并评估其在一组下游任务上的表现。所提到的前三个策略在各种下游任务上进行了测试:四个蛋白质特性预测任务(质膜定位、热稳定性、吸收峰值波长、对映选择性)。

此外,本论文还包括另外两章,考虑了在对蛋白质数据建模时遇到的其他挑战。这一章首先介绍了应用预训练来提高磷酸化位点建模的最先进水平,使用了一个全新的基于卷积变换器的模型。我们在一般的磷酸化位点数据集和各种特定的激酶数据集上评估我们的方法。此外,为了强调这是一个白盒深度学习的例子,我们将模型的特征可视化,以获得对每个站点预测背后的更好理解。

最后一个研究章节考虑了为蛋白质和药物之间的相互作用建模的最先进方法。在这一章中,我们利用了一组BERT式的模型,这些模型已经在大量的蛋白质和药物数据上进行了预训练。然后,每个模型产生的编码被用作图卷积神经网络的节点表示,该网络反过来对相互作用进行建模,而不需要同时对蛋白质和药物BERT模型进行微调来完成任务。我们在两个药物-目标相互作用数据集上评估了我们的方法的性能,这两个数据集在最近的工作中曾被用作基准。

成为VIP会员查看完整内容
16

相关内容

AI技术中的机器学习、深度学习、自然语言处理等技术能够提高制药数据、信息的处理效率,对于药物研发过程中的新药发现,可以代替研究人员有限的知识储备和想象力,发现原来很难、甚至不可能发现的靶点,这也是AI在制药领域最大的价值点,AI还可以预测候选药物的性能如药物的吸收、代谢、毒性、不良反应等,缩小后期实验范围,降低临床失败概率,大幅降低新药研发的时间、资金成本。机器学习和深度学习算法已在多个药物发现过程中实施,例如肽合成、基于结构的虚拟筛选、基于配体的虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重新定位、多药理学和理化活性。过去的证据加强了人工智能和深度学习在该领域的实施。此外,新颖的数据挖掘、管理和管理技术为最近开发的建模算法提供了关键支持。总之,人工智能和深度学习的进步为合理的药物设计和发现过程提供了绝佳的机会,最终将影响人类。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
英国杜伦大学「深度生成建模」大综述论文,21页pdf
专知会员服务
48+阅读 · 2021年3月16日
专知会员服务
62+阅读 · 2021年2月4日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Linear Approximate Pattern Matching Algorithm
Arxiv
0+阅读 · 2022年6月30日
Arxiv
0+阅读 · 2022年6月28日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
35+阅读 · 2021年1月27日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
26+阅读 · 2018年9月21日
VIP会员
相关基金
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Linear Approximate Pattern Matching Algorithm
Arxiv
0+阅读 · 2022年6月30日
Arxiv
0+阅读 · 2022年6月28日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
35+阅读 · 2021年1月27日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
26+阅读 · 2018年9月21日
微信扫码咨询专知VIP会员