Cell专刊｜AI在蛋白结构、精准医疗、抗体疗法[综述]等的应用与未来预测

2022 年 7 月 25 日 专知

2022年7月21日，Cell Voices上发表了题为“The next deacde of protein structure"的文章，其中哥伦比亚大学系统生物学教授Mohammed AIQuraishi对未来蛋白结构预测给出了如下表述：“如果折叠是开始，那结束是什么？”的回答。

在过去的四年中，在深度学习技术推动下，蛋白质结构预测取得了前所未有的进展。多亏了DeepMind的AlphaFold2，数以万计的预测结构，在准确性上可与实验结构媲美，现在可用于人类和其他生物体，还有更多的结构即将出现。

考虑到进展的速度，可以想象，在几年的时间里，蛋白质复合物和分子机器的结构将得到类似的整体阐明。之后可能会出现构象群[conformational ensembles]和蛋白质动力学[protein dynamics]，这提出了一个问题，即当我们对大多数蛋白质的形状和运动进行全系统描述时，可能会发生什么。

我的希望是一种新型的系统生物学，自下而上，以分子和机制为基础。这种新的结构系统生物学将是原则性的和新兴的，解释现有的现象，并根据潜在的分子相互作用预测新的现象。

但是如何到达那里呢？模拟很可能是关键，因为它们在系统生物学中已经并将继续存在。但是，从分子机器到细胞器和细胞亚结构，对中尺度现象进行粗粒度、聚集和推理的新抽象、新方法也将如此。

这样的抽象可能需要将机器学习与生物物理学相结合，以保持物理建模的一些严谨性，同时利用机器学习的分子表示的丰富性。如果成功，这种系统生物学将使我们能够更容易地将数据转化为知识，这是现代生命科学的一个关键挑战。

2022年7月21日，Cell Voices上发表了题为“The impact of AI on research"的文章。多位领域大牛给出了评论与大胆的预测。

英国剑桥癌症研究所Carlos Caldas：AI将推出精准癌症医学2.0

人工智能通过机器学习和深度学习使计算机能够模拟人类将数据转换为知识能力。在癌症生物医学中，从基因组、蛋白质组和代谢组学水平对肿瘤进行大量分析得到了前所未有的大量数据；肿瘤微环境中恶性细胞和正常细胞的单细胞分析；以及二维和三维肿瘤的空间分辨率分析。需要对这些多维数据进行解释和集成，以实现肿瘤生态系统的系统级视图，并提供了下一个级别的精准癌症医学。

对于作者的实验室和整个领域来说，人工智能已经是我们研究的一个组成部分。

我们使用人工智能分析线性测序数据，预测癌症驱动因素和识别突变特征，预测序列变异在3D基因组组织中的后果，进行in silico TCR/BCR表征，预测其与同源新生抗原的配对，并设计新的治疗方法。

人工智能还将有助于单细胞数据的收敛分析和从海量数据中的反卷积细胞成分。原位分子注释单细胞的空间分析需要人工智能客观的描述组织邻域、生态位和细胞间通讯。

迁移学习，通过应用从不同任务中学习到的知识来加强机器学习模型，结合深度学习，将从H&E组织切片中捕获的常规组织形态学来提取功能层。

人工智能是深入了解肿瘤生物学的新系统级见解以及下一代诊断、预后和预测性生物标志物的关键。

康斯坦茨大学Axel Meyer：”人工智能在进化生物学和基因组学中的应用前景“

进化生物学和基因组学一直需要计算的科学学科。

我们过去常常从聚丙烯酰胺凝胶的放射自显影图中读取DNA序列，手动将它们输入键盘。按照今天的标准，手工读取DNA序列并用可笑的简单算法进行分析在事后看来似乎很奇怪，但它让你感觉到了数据的准确性。

在过去的30年中，DNA测序技术和计算生物学的所有技术进步推动了我们领域向前发展。人工智能和机器学习工具现在在我们的研究中无处不在，从历史种群参数估计的种群基因组模式到预测全球变暖导致的未来物种分布。但是，我们现在更远离原始数据，因为今天需要许多层的计算分布来提取信号和模式，这些信号或模式仍然需要由人类大脑进行解释。

最后，我要说的是，尽管有了有价值的新工具，但生物学知识、直觉、经验和对无稽之谈的怀疑眼光仍然是科学家解释数据必须具备的最重要的技能。

华盛顿大学医学院，Samantha A. Morris：用机器学习剖析细胞身份

随着单细胞生物学在各种模式中变得越来越成熟，该领域准备利用这些方法产生的大量数据来获得对细胞身份和行为的新机制的见解。

事实上，一类新的基于人工智能的方法正在出现，对各种扰动预测单细胞表型，例如细胞间信号线索。我的研究计划侧重于基因调控网络(GRN)如何在发育和重编程中控制细胞身份，我们直接受益于这些新的计算策略。

我们使用机器学习将单细胞基因表达和染色质可及性与转录因子结合基序的先验生物学知识相结合来构建GRN模型。这种可解释网络的构建可以在不需要大量训练数据的情况下模拟细胞身份的后续变化，从而实现模拟转录因子TF扰动，例如敲除或过度表达。因此，我们可以通过TFs系统地筛选，以恢复我们实验验证的新的、上下文相关的细胞身份调控组件。

我们正在应用这种方法来了解GRN在重新编程过程中是如何“重新布线[rewired]”的，识别新的TF以增加目标细胞类型的产量。我们还使用这种方法来更好地理解从斑马鱼到老鼠再到人类等生物体发育过程中的基因调控。

很快，我预计这种模拟扰动方法将得到广泛应用，揭示了在已建立和新兴的生物学范式中建立细胞身份的新见解。

这篇评论论文中，作者讨论了人工智能在分析和解释生命科学数据特别是神经科学数据方面的影响，这是人工智能在生物医学领域的最新综述。

人工智能的第一个重要应用是开发分析和解释数据的工具。例如，运动跟踪软件Deeplabcut[5]分析视频以识别和/或标记动物的精确姿势，从而在神经记录或干扰期间更精确地描述动物行为(包括个人和社会群体)；显微镜数据突触重建系统MICrONS[6]；从一维氨基酸序列预测三维蛋白质结构的Alphafold-2等重大的突破。

人工神经网络最初是按照大脑模型开发的，所以人工智能的重要应用就涉及使用人工神经网络作为神经计算模型，其明确目标是理解和模拟人类认知。

理解大脑学习和可塑性感兴趣的计算神经学家开始研究用于训练人工神经网络的技术。最近，美国国防部高级研究计划局提出了一项重大挑战—“重播”(replay)，即海马体重新激活已经学习到的记忆[7]；另一个挑战是“基因组瓶颈”(genomic bottleneck)，即许多动物(包括人类)的行为是天生的，以某种方式嵌入到基因组中[8]。解决这些挑战，还需要神经科学的支撑。

2022年7月21日，Cell review发表了题为“Designing antibodies as therapeutics”的综述论文。描述了当前抗体疗法的快照，包括其形式、常见靶点、治疗区域和给药途径，重点讨论了抗体设计中选定的新兴方向，其中的进展可能提供广泛的益处。

这些主题包括增强癌症抗体，抗体输送到大脑、胃肠道和肺部等器官，以及抗体发展挑战，包括免疫原性风险评估和缓解以及皮下输送。机器学习对于抗体发现和工程的变革性未来影响具有潜在的潜力，尽管这在很大程度上尚未实现。

下面主要提取该综述文章中对AI在抗体疗法应用中的综述。

抗体发现技术的现代工具箱包括使用免疫动物、体外显示技术和机器学习从人类和其他物种获得抗体的许多可靠途径，抗体的常见MOA包括：配体阻断、受体阻断、受体下调、靶细胞耗竭、受体激动(信号诱导)和可溶性靶抗原清除/分解代谢。

抗体疗法的免疫原性风险评估和缓解

抗体的人源化特别适合机器学习，可能降低免疫原性风险(Marks et al.,2021;Prihoda et al,2022)。抗体临床候选物可以根据免疫原性风险和低风险变异进行排名。此外，可以设计具有免疫原性风险的候选物，以降低其风险。

皮下注射用工程抗体

机器学习在预测抗体良好的高浓度属性方法的应用为识别可能适合皮下注射的抗体提供了另一种方法(Arslan et al.,2021;Lai et al,2021)。在发现过程之外，有时可以设计抗体，包括双特异性抗体，以降低其粘度，同时保持其抗原结合亲和力(Tilegenova et al,2020)。

从历史上看，抗体的皮下注射生物利用度在临床前很难预测(Datta Mannan et al,2020)。然而，对相关抗体变异的研究表明，可以通过减少局部正电荷、降低疏水基质相互作用、提高热稳定性和减少热诱导聚集来增强s.c.吸收和生物利用度(Datta-Mannan et al，2020)。在预测抗体生物利用度方面显示出一些前景的工具包括皮下注射部位模拟仪器(“Scissor”)(Bown et al.,2018)和机器学习(Lou and Hageman,2021)。

抗体治疗的长期机会

抗体的未来临床机会包括追求“悬而未决的成果”，例如难以hit、了解甚少或以前“无法治愈”的靶点(Carter and Lazar,2018)。例如，有效的细胞内传递抗体将大大扩大抗体可用于药物治疗的靶点范围，但仍然非常难以实现(Niamsuphap et al,2020)。机器学习预计将改变生物医学(Goecks et al,2020年)，如本综述和下文所述，机器学习在抗体治疗学的发展方面有很大的潜力，但尚未实现。

计算蛋白设计在抗体发现和工程中的应用

计算蛋白质设计在抗体发现和优化中的作用越来越大(Sormanni et al,2018)。抗体序列的深度测序与相关功能数据的结合可用于训练基于机器学习的新模型，用于亲和力成熟、人性化和可开发性(Marks and Deane,2020;Pertseva et al,2021)。这些方法提供了将不同考虑和设计阶段统一到联合模型中的机会，以及跨许多不同来源传递知识的机会。

抗体结构需要解决VH/VL配对和CDR-H3 loops建模的挑战。实验和计算方面的进步使这两方面都取得了进展(DeKosky et al,2016;Ruffolo et al,2022)。抗体-抗原相互作用的预测是一个挑战，显示几何和化学特征的相互作用分子表面的表示可能有助于评分互补性(Gainza et al,2020)和对接。已经证明了使用计算设计进行特异性和亲和性优化的许多方法(liu et al.,2020;Mason et al.,2021)，其中一些方法专门尝试解决突变景观中的上位性问题(Adams et al.,2019)。计算抗体设计的快速进展表明，在不久的将来可能实现从头抗体设计。

在设计抗体作为治疗剂时，通常需要优化几个不同的参数，包括亲和力、potency和可开发性，或者至少优化一个参数，而不降低另一个参数的等级。这种经验优化通常是按顺序进行的，既耗时又耗费资源。此外，个体抗体特性的优化可能会导致其他属性的意外退化。例如，抗呼吸道合胞病毒(RSV)抗体palivizumab的亲和力成熟导致与大鼠蛋白质的非预期结合，并在棉花大鼠中快速清除，这通过进一步工程(Wu et al.,2007)来解决，以创建莫塔维珠单抗。多目标抗体优化的计算方法，即所谓的“帕累托优化”，具有更快的治疗时间线的显著优势(Kuroda and Tsumoto,2020)。

参考文献

[1] The next decade of protein sturcture

[2] The impact of AI on research

[3]The application of artificial intelligence to biology and neuroscience

[4] Designing antibodies as therapeutics

[5] Mathis, A., Mamidanna, P., Cury, K.M., Abe, T., Murthy, V.N., Mathis, M.W., and Bethge, M. (2018). DeepLabCut: Markerless Pose Estimation of User-Defined Body Parts with Deep Learning. Nat. Neurosci. 21, 1281–1289.

[6] MICrONS Consortium, Alexander Bae, J., Baptiste, M., Bodor, A.L., Brittain, D., Buchanan, J., Castro, M.A., Bumbarger, D.J., Celii, B., Cobos, E., Collman, F., et al. (2021). Functional Connectomics Spanning Multiple Areas of Mouse Visual Cortex. Preprint at bioRxiv.

[7] Kudithipudi, D., Aguilar-Simon, M., Babb, J., Bazhenov, M., Blackiston, D., Bongard, J., Brna, A.P., Raja, S.C., Cheney, N., Clune, J., et al. (2022). Biological Underpinnings for Lifelong Learning Machines. Nature Machine Intelligence 4, 196–210.

[8] Koulakov, A., Shuvaev, S., Lachi, D., and Zador, A. (2021). Encoding Innate Ability through a Genomic Bottleneck.

[9] Marks, C., Hummer, A.M., Chin, M., and Deane, C.M. (2021). Humanization of antibodies using a machine learning approach on large-scale repertoire data. Bioinformatics 37, 4041–4047.

[10] Prihoda, D., Maamary, J., Waight, A., Juan, V., Fayadat-Dilman, L., Svozil, D., and Bitton, D.A. (2022). BioPhi: A platform for antibody design, humanization, and humanness evaluation based on natural antibody repertoires and deep learning. mAbs 14, 2020203.

[11] Arslan, F.B., Ozturk Atar, K., and Calis, S. (2021). Antibody-mediated drug de- livery. Int. J. Pharm. 596, 120268.

[12] Lai, P.K., Fernando, A., Cloutier, T.K., Gokarn, Y., Zhang, J., Schwenger, W., Chari, R., Calero-Rubio, C., and Trout, B.L. (2021). Machine learning applied to determine the molecular descriptors responsible for the viscosity behavior of concentrated therapeutic antibodies. Mol. Pharm. 18, 1167–1175.

[13] Tilegenova, C., Izadi, S., Yin, J., Huang, C.S., Wu, J., Ellerman, D., Hymowitz, S.G., Walters, B., Salisbury, C., and Carter, P.J. (2020). Dissecting the molec- ular basis of high viscosity of monospecific and bispecific IgG antibodies. mAbs 12, 1692764.

[14] Datta-Mannan, A., Estwick, S., Zhou, C., Choi, H., Douglass, N.E., Witcher, D.R., Lu, J., Beidler, C., and Millican, R. (2020). Influence of physiochemical properties on the subcutaneous absorption and bioavailability of monoclonal antibodies. mAbs 12, 1770028.

[15] Bown, H.K., Bonn, C., Yohe, S., Yadav, D.B., Patapoff, T.W., Daugherty, A., and Mrsny, R.J. (2018). In vitro model for predicting bioavailability of subcuta- neously injected monoclonal antibodies. J. Control. Release 273, 13–20.

[16] Lou, H., and Hageman, M.J. (2021). Machine learning attempts for predicting human subcutaneous bioavailability of monoclonal antibodies. Pharm. Res.38, 451–460.

[17] Pertseva, M., Gao, B., Neumeier, D., Yermanos, A., and Reddy, S.T. (2021). Applications of machine and deep learning in adaptive immunity. Annu. Rev. Chem. Biomol. Eng. 12, 39–62.

[18] Ruffolo, J.A., Sulam, J., and Gray, J.J. (2022). Antibody structure prediction using interpretable deep learning. Patterns (N Y) 3, 100406.

[19] Mason, D.M., Friedensohn, S., Weber, C.R., Jordi, C., Wagner, B., Meng, S.M., Ehling, R.A., Bonati, L., Dahinden, J., Gainza, P., et al. (2021). Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning. Nat. Biomed. Eng. 5, 600–612

专知便捷查看