【Nature. Mach. Intell. 】GPU计算和深度学习在药物发现中的变革作用

2022年3月23日，来自哥伦比亚大学的Artem Cherkasov和英伟达的Abraham C等人在Nature Machine Intelligence杂志发表文章，全面阐述了GPU计算和深度学习的历史趋势和最新进展，并讨论了它们对药物发现的直接影响。

摘要

深度学习几乎颠覆了每一个研究领域，包括那些对药物发现有直接重要性的领域，如药物化学和药理学。**这场革命在很大程度上归功于高度可并行的GPU的空前进步和支持GPU的算法的发展。**在这篇文章中，我们全面介绍了GPU算法的历史趋势和最新进展，并讨论了它们对发现新药和药物靶点的直接影响。我们还介绍了最先进的深度学习架构，这些架构在早期药物发现和随后的hit-to-lead阶段都有实际应用，包括加速分子对接、评估脱靶效应和预测药理特性。最后，我们讨论了GPU加速和深度学习模型对药物发现领域的全球民主化的影响，这可能会推动对不断扩大的化学世界的有效探索，以加速发现新药。

主要内容

图形处理单元 (graphics processing units, GPU) 最初是为加速三维图形而开发的，它在强大的并行计算方面的优势很快就被科学界所称赞。最早将GPU用于科学目的的尝试采用了可编程着色器语言来运行计算。2007年，英伟达公司发布了计算统一设备架构 (Compute Unified Device Architecture, CUDA) 作为C语言的扩展，同时还发布了编译器和调试器，为将计算密集型工作负载移植到GPU加速器中打开了闸门。进一步的进展来自于常见数学库的发布，如快速傅里叶变换和基本线性代数子程序，这些都是科学计算的基础。同年，第一批计算化学程序被移植到了GPU上，实现了分子力学和量子蒙特卡洛计算的高效并行化。

2014年9月，英伟达公司发布了cuDNN，这是一个由GPU加速的深度神经网络 (DNN) 基元库，实现了前向和后向卷积、池化、归一化和激活层等标准程序。**GPU对训练和测试子过程的架构支持似乎对标准深度学习 (DL) 程序特别有效。**因此，出现了一个由GPU加速的深度学习的整个生态系统。虽然英伟达的CUDA是一个更成熟的GPU编程框架，但AMD的ROCm代表了一个通用的GPU加速计算平台。ROCm引入了新的数值格式，以支持常见的开源机器学习库 (如TensorFlow和PyTorch)，它还提供了将英伟达CUDA代码移植到AMD硬件的方法。值得注意的是，AMD不仅在GPU计算竞赛中追赶ROCm平台，而且最近还推出了新的旗舰GPU架构AMD Instinct MI200系列，与最新的NVIDIA Ampere A100 GPU架构竞争。

生物信息学、化学信息学和化学基因组学领域，包括计算机辅助药物发现 (CADD)，已经利用了在GPU上运行的DL方法。CADD中的大多数挑战通常都面临着组合学和优化问题，而机器学习已经有效地提供了解决方案。因此，CADD应用中的DL已经取得了重大进展，如虚拟筛选、新药设计、吸收、分布、代谢、排泄和毒性 (ADMET) 特性预测等等 (图1)。