2022年3月23日,来自哥伦比亚大学的Artem Cherkasov和英伟达的Abraham C等人在Nature Machine Intelligence杂志发表文章,全面阐述了GPU计算和深度学习的历史趋势和最新进展,并讨论了它们对药物发现的直接影响。
摘要
深度学习几乎颠覆了每一个研究领域,包括那些对药物发现有直接重要性的领域,如药物化学和药理学。**这场革命在很大程度上归功于高度可并行的GPU的空前进步和支持GPU的算法的发展。**在这篇文章中,我们全面介绍了GPU算法的历史趋势和最新进展,并讨论了它们对发现新药和药物靶点的直接影响。我们还介绍了最先进的深度学习架构,这些架构在早期药物发现和随后的hit-to-lead阶段都有实际应用,包括加速分子对接、评估脱靶效应和预测药理特性。最后,我们讨论了GPU加速和深度学习模型对药物发现领域的全球民主化的影响,这可能会推动对不断扩大的化学世界的有效探索,以加速发现新药。
主要内容
图形处理单元 (graphics processing units, GPU) 最初是为加速三维图形而开发的,它在强大的并行计算方面的优势很快就被科学界所称赞。最早将GPU用于科学目的的尝试采用了可编程着色器语言来运行计算。2007年,英伟达公司发布了计算统一设备架构 (Compute Unified Device Architecture, CUDA) 作为C语言的扩展,同时还发布了编译器和调试器,为将计算密集型工作负载移植到GPU加速器中打开了闸门。进一步的进展来自于常见数学库的发布,如快速傅里叶变换和基本线性代数子程序,这些都是科学计算的基础。同年,第一批计算化学程序被移植到了GPU上,实现了分子力学和量子蒙特卡洛计算的高效并行化。
2014年9月,英伟达公司发布了cuDNN,这是一个由GPU加速的深度神经网络 (DNN) 基元库,实现了前向和后向卷积、池化、归一化和激活层等标准程序。**GPU对训练和测试子过程的架构支持似乎对标准深度学习 (DL) 程序特别有效。**因此,出现了一个由GPU加速的深度学习的整个生态系统。虽然英伟达的CUDA是一个更成熟的GPU编程框架,但AMD的ROCm代表了一个通用的GPU加速计算平台。ROCm引入了新的数值格式,以支持常见的开源机器学习库 (如TensorFlow和PyTorch),它还提供了将英伟达CUDA代码移植到AMD硬件的方法。值得注意的是,AMD不仅在GPU计算竞赛中追赶ROCm平台,而且最近还推出了新的旗舰GPU架构AMD Instinct MI200系列,与最新的NVIDIA Ampere A100 GPU架构竞争。
生物信息学、化学信息学和化学基因组学领域,包括计算机辅助药物发现 (CADD),已经利用了在GPU上运行的DL方法。CADD中的大多数挑战通常都面临着组合学和优化问题,而机器学习已经有效地提供了解决方案。因此,CADD应用中的DL已经取得了重大进展,如虚拟筛选、新药设计、吸收、分布、代谢、排泄和毒性 (ADMET) 特性预测等等 (图1)。
图1:CADD工作流程
GPU加速器在药物发现和开发过程的每个步骤中都能找到应用。
在此,我们讨论了GPU支持的并行化和DL模型开发和应用对蛋白质和蛋白质-配体复合物模拟的时间尺度和准确性的影响。我们还提供了用于低温电子显微镜 (cryo-EM) 结构测定和蛋白质三维结构预测中DL算法的例子。
参考链接: