AI技术中的机器学习、深度学习、自然语言处理等技术能够提高制药数据、信息的处理效率，对于药物研发过程中的新药发现，可以代替研究人员有限的知识储备和想象力，发现原来很难、甚至不可能发现的靶点，这也是AI在制药领域最大的价值点，AI还可以预测候选药物的性能如药物的吸收、代谢、毒性、不良反应等，缩小后期实验范围，降低临床失败概率，大幅降低新药研发的时间、资金成本。机器学习和深度学习算法已在多个药物发现过程中实施，例如肽合成、基于结构的虚拟筛选、基于配体的虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重新定位、多药理学和理化活性。过去的证据加强了人工智能和深度学习在该领域的实施。此外，新颖的数据挖掘、管理和管理技术为最近开发的建模算法提供了关键支持。总之，人工智能和深度学习的进步为合理的药物设计和发现过程提供了绝佳的机会，最终将影响人类。

知识荟萃

更新时间2022.2.11

涵盖AI药物研发（辅助制药）：白皮书、国内外技术报告、干货书、最新综述论文（入门）、关键技术最新论文（含实现代码，进阶）、数据集、教程课程讲解PPT等。

白皮书

2021.1，《imit白皮书——AI驱动新药研发深度发展》，浙江数字医疗卫生技术研究院。本白皮书 总结了AI之于新药研发的意义、全球AI新药研发发展环境、 AI新药研发技术与应用现状、AI新药研发行业发展现状、我国AI新药研发发展面临的机遇与挑战。[http://www.imit.org.cn/data/upload/portal/20210127/imit%E7%99%BD%E7%9A%AE%E4%B9%A6%E7%AC%AC%E5%8D%81%E4%B9%9D%E6%9C%9F%EF%BC%9AAI%E9%A9%B1%E5%8A%A8%E6%96%B0%E8%8D%AF%E7%A0%94%E5%8F%91%E6%B7%B1%E5%BA%A6%E5%8F%91%E5%B1%95.pdf]
2021.5，《2021 易凯资本中国健康产业白皮书——医药与生物科技篇》。[http://www.ceccapitalgroup.com/index.php?a=shows&catid=5&id=570]
2021.6，《中国细胞与基因治疗产业发展白皮书》，弗若斯特沙利文咨询（中国），59页。本报告旨在分析中国细胞与基因治疗（Cellular and Gene Therapy, CGT） 行业发展现状、行业特点、治疗领域、驱动因素及发展趋势 ，并聚焦中国医药CGT行业市场竞争态势，反映该市场领袖梯队企业的差异化竞争优势。[http://www.frostchina.com/wp-content/uploads/2021/06/1-3.pdf]
2021，《中国医疗科技行业白皮书》，119页PPT，头豹。从市场热度、科技创新、产业周期及政策红利的角度探寻中国医疗科技行业生态产业（ AI药物研发等）发展的机遇。[http://www.healthit.cn/wp-content/uploads/2022/01/2021%E5%B9%B4%E4%B8%AD%E5%9B%BD%E5%8C%BB%E7%96%97%E7%A7%91%E6%8A%80%E8%A1%8C%E4%B8%9A%E7%99%BD%E7%9A%AE%E4%B9%A6.pdf]

技术报告

国内

2021.12，《2021AI药物研发发展研究报告》，健康界研究院，37页。健康界研究院认为，人工智能技术对药物研发提质增效的作用毋庸置疑，前景可期，但行业毕竟处在发展初期，数据与算法的技术挑战尤为明显，商业模式的可行性还需市场的进一步检验 。[https://www.dx2025.com/wp-content/uploads/2022/02/2021ai_research_report_on_drug_r__d_and_development.pdf]
2021.9，《"AI+"系列报告之 1: AI+新药研发》，易凯资本。 针对大众普遍关注的12 个问题（AI辅助药物研发（AIDD）目前主要应用的算法有哪些？有何局限性？ 2022年 AI+药物研发融资趋势如何？等），易凯资本给出了的答案。[http://www.ceccapitalgroup.com/index.php?a=shows&catid=5&id=600]
2021.9，《全球44家顶尖药企AI辅助药物研发行为白皮书（2021）》。 盘点了全球44家顶尖药企（包括3家中国药企）在利用AI辅助药物研发上的行动 。[https://www.eet-china.com/mp/a76254.html]
2021.9，《AI新药研发（AIDD）行业系列报告——洞鉴行业发展，把握投资先机》，中银证券，88页，[https://pdf.dfcfw.com/pdf/H3_AP202109031513955656_1.pdf?1630758964000.pdf]
2021.1，《2021中国AI/计算制药产业报告：药物发现篇》，亿欧智库，33页。本报告在梳理 现阶段中国人工智能/计算制药行业发展阶段 以及 人工智能/计算新技术在药物研发中的应用情况，为希望了解这个行业的创业者、医药企业以及跨界企业、投资人等提供参考。[https://pdf.dfcfw.com/pdf/H3_AP202111251531049791_1.pdf]
2020.8，《DEL（DNA 编码化合物库）技术引领原创新药加速发展——成都先导（688222）深度报告》，国海证券，30页。[https://pdf.dfcfw.com/pdf/H3_AP202008301404183357_1.pdf?1601215122000.pdf]

国外

2021.11，"The Global Partnership on Artifical Intelligence(GPAI) Drug Discovery Committee，Artificial Intelligence for Public Good Drug Discovery"。人工智能全球伙伴关系("GPAI")是一个由19个成员国组成的多方倡议。GPAI的专家来自学术界、工业界和公共部门的贡献者，提供了解决当前多方面问题所需的广泛视角。 本报告总结了药物发现生态系统中值得关注的主题、开发数据、药物发现目前的挑战机遇、未来发展建议等 。[https://gpai.ai/projects/ai-and-pandemic-response/public-domain-drug-discovery/ai-for-public-domain-drug-discovery.pdf]
2021.11，Drug Target Review，"AI & Informatics: Drug discovery and development"。全面 探索了人工智能和信息学在药物发现和开发中的应用如何演变 。成像、合成生物学、药物筛选和药物设计领域的 AI 和信息学的深入分析。对来自阿斯利康、Auransa、PolarisQB 和查尔姆斯理工大学的专家的精选采访。[https://www.drugtargetreview.com/article/92497/ai-informatics-drug-discovery/]
2020，IntechOpen，"Artificial Intelligence in Oncology Drug Discovery and Development"，196页。这本书 探讨了人工智能和ML在提高药物发现和开发效率方面的作用 。[https://library.oapen.org/bitstream/handle/20.500.12657/43405/external_content.pdf?sequence=1]
2019，C&EN，"ARTIFICIAL INTELLIGENCE IN DRUG DISCOVERY: Hope or hype?"。首先概述了什么是人工智能和机器学习，然后 考察了化学家们已经在使用人工智能和机器学习预测潜在药物的活动，制药和生物技术公司正在投资的领域，以及未来的发展方向。该报告还包括为药物发现领域提供人工智能服务的** 前20家初创企业和小型公司的独家指南**，以及麻省理工学院制药公司联盟的简介，该联盟正在重新思考化学家如何设计药物，等等。[https://www.acs.org/content/dam/acsorg/membership/acs/benefits/discovery-reports/articial-intel.pdf]
2019，Deloitte Centre for Health Solutions，"Intelligent drug discovery Powered by AI"。德勤智能生物制药系列探讨了人工智能(AI)技术将如何影响生物制药价值链的每一步，这篇报告 探讨了人工智能如何帮助加快药物发现的效率和成本效益 。[https://www2.deloitte.com/content/dam/Deloitte/my/Documents/risk/my-risk-sdg3-intelligent-drug-discovery.pdf]

入门（综述、书籍）

书籍

【干货书】数据挖掘药物发现（Data Mining in Drug Discovery） ，347页pdf。为药物开发人员而不是计算机科学家写的，这一专论采用了一种系统的方法来挖掘科学数据源，涵盖了从化合物筛选到先导化合物选择和个性化药物的合理药物发现的所有关键步骤。第一部分明确地分为四个部分，讨论了不同的可用的数据来源，包括商业和非商业的，而下一节着眼于数据挖掘在药物发现中的作用和价值。第三部分比较了多药理学最常见的应用和策略，其中数据挖掘可以大大提高研究工作。书的最后一部分是致力于复合测试的系统生物学方法。
全文：[https://www.zhuanzhi.ai/vip/8c111c4ee00dc59f48f8afaea8914d6f]，[https://doc.lagout.org/Others/Data%20Mining/Data%20Mining%20in%20Drug%20Discovery%20%5BHoffmann%2C%20Gohier%20%26%20Pospisil%202013-12-04%5D.pdf]
【干货书】深度学习生命科学：基因组学、药物发现（Deep Learning for the Life Sciences） ，238页pdf。实践开发人员和科学家准备将他们的技能应用于科学应用，如生物学，遗传学，和药物的发现，这本书介绍了几个深度网络原语。您将跟随一个案例研究，研究如何设计将物理、化学、生物学和医学结合在一起的新疗法——这个例子代表了科学界最大的挑战之一。
全文：[https://www.zhuanzhi.ai/vip/da9f0d10cd09ce1f59341b7c79955d8c]，[https://www.codecool.ir/extra/202035202021856Deep%20Learning%20for%20the%20Life%20Sciences(2019).pdf]

综述论文

2021.3，苏黎世联邦理工学院、德国勃林格殷格翰制药有限公司，Artificial intelligence in drug discovery: recent advances and future perspectives（Expert Opin Drug Discov.）。
摘要：人工智能 (AI) 启发了计算机辅助药物发现。机器学习（尤其是深度学习）在多个科学学科中的广泛采用，以及计算硬件和软件的进步等因素继续推动了这一发展。最初对人工智能在药物发现中应用的怀疑已经开始消失，从而有利于药物化学。本文 回顾了人工智能在化学信息学中的现状 。本文讨论的主题包括定量结构-活性/性质关系和基于结构的建模、从头分子设计和化学合成预测。重点介绍了当前深度学习应用的优势和局限性，以及对用于药物发现的下一代 AI 的展望。基于深度学习的方法才刚刚开始解决药物发现中的一些基本问题。某些方法学上的进步，例如消息传递模型、保持空间对称性的网络、混合从头设计和其他创新的机器学习范式，可能会变得司空见惯，并有助于解决一些最具挑战性的问题。开放数据共享和模型开发将在利用 AI 推动药物发现方面发挥核心作用。
原文：[https://www.tandfonline.com/doi/full/10.1080/17460441.2021.1909567]
2021.12，荷兰莱顿大学，From computer-aided drug discovery to computer-driven drug discovery（Drug Discovery Today: Technologies）。
摘要：计算化学和基于结构的设计传统上被视为有助于加速药物发现过程的工具子集，但通常不被视为小分子药物发现的驱动力。然而，在过去十年中，该领域取得了巨大的进步，包括 (1) 开发基于物理的计算方法，以准确预测从效力到溶解度的各种端点，(2) 人工智能和深度学习方法的改进(3) 随着 GPU 和云计算的出现，计算能力显着提高，从而能够在计算机中探索和准确描述大量的药物类化学空间。在结构生物学方面也取得了同步进展，例如低温电子显微镜 (cryo-EM) 和计算蛋白质结构预测，允许获得更多高分辨率 3D 结构的新型药物受体复合物。这些突破的融合使结构支持的计算方法成为发现新型小分子疗法的驱动力。这篇综述将 广泛概述计算化学、机器学习和结构生物学领域的最新进展，特别是在hit识别、hit-to-lead和lead优化领域的协同作用 。
论文：[https://www.sciencedirect.com/science/article/abs/pii/S1740674921000184]
2021.4，德里理工大学，Artificial intelligence to deep learning: machine intelligence approach for drug discovery（Molecular Diversity）。
摘要：药物设计和开发是制药公司和化学科学家的重要研究领域。然而，低功效、脱靶递送、时间消耗和高成本构成了影响药物设计和发现的障碍和挑战。此外，来自基因组学、蛋白质组学、微阵列数据和临床试验的复杂和大数据也给药物发现管道带来了障碍。人工智能和机器学习技术在药物发现和开发中发挥着至关重要的作用。换句话说，人工神经网络和深度学习算法已经使该领域现代化。机器学习和深度学习算法已在多个药物发现过程中实施，例如肽合成、基于结构的虚拟筛选、基于配体的虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重新定位、多药理学和理化活性。过去的证据加强了人工智能和深度学习在该领域的实施。此外，新颖的数据挖掘、管理和管理技术为最近开发的建模算法提供了关键支持。总之，人工智能和深度学习的进步为合理的药物设计和发现过程提供了绝佳的机会，最终将影响人类。
论文：[https://link.springer.com/article/10.1007/s11030-021-10217-3]
2021.1，印度艾哈迈达巴德国家药物教育与研究研究所 (NIPER-A)，Artificial intelligence in drug discovery and development（Drug Discovery Today）。
摘要：这篇综述强调了人工智能在制药行业各个领域的有效使用，例如 药物发现和开发、药物再利用、提高制药生产力、临床试验 等，从而减少了人类的工作量并实现了目标在短时间内。还讨论了用于执行 AI 的工具和技术、持续的挑战以及克服这些挑战的方法，以及 AI 在制药行业的未来。
论文：[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7577280/pdf/main.pdf]
2021.8，印度BVRIT大学等，Machine Learning in Drug Discovery: A Review，53页。
摘要：人工智能已应用于 药物设计 的各种方面，如药物-蛋白质相互作用预测、药物疗效的发现、确保安全性生物标志物。本综述提供了在药物开发的各个阶段通过ML工具和技术发现药物的可行文献，以加速研究过程，降低临床试验的风险和支出。机器学习技术改进了在不同应用中的药物数据决策，如QSAR分析、hit发现、从头药物架构检索准确的结果。在本综述中，靶点验证、预后生物标志物、数字病理学都被认为是存在问题的。ML挑战必须适用于可解释性结果不足的主要原因，这可能会限制药物发现中的应用。在临床试验中，必须生成绝对数据和方法学数据，以解决在验证ML技术、改进决策、提高ML方法的意识以及推断药物发现中的风险失败方面的许多难题。
论文：[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8356896/pdf/10462_2021_Article_10058.pdf]
2021.11，纽约州立大学石溪分校，Artificial Intelligence in Drug Discovery: Applications and Techniques，65页。
摘要： 本研究为人工智能在药物发现中的应用提供一个全面的综述 。首先概述了药物的发现和相关应用，并将其归纳为分子性质预测和分子生成两个主要任务。介绍了公共数据资源、分子表示和基准平台。人工智能技术被分解为模型架构和学习范式。按照时间顺序调研了近年来人工智能在药物发现方面的技术发展。还提供GitHub知识库包含了一组论文(和代码)作为学习资源，并定期更新（[https://github.com/dengjianyuan/Survey_AI_Drug_Discovery]）
论文：[https://arxiv.org/pdf/2106.05386.pdf]
2022.1，山东大学、维多利亚科技大学、国防科技大学、湖南大学，Machine Learning Applications in Drug Repurposing（Interdisciplinary Sciences: Computational Life Sciences）。
摘要：尽管潜在的证据基础质量参差不齐，但冠状病毒病 (COVID-19) 导致人们急于重新利用现有药物。药物再利用是一种利用现有已知药物或药物组合在意想不到的医疗场景中进行探索的技术。因此，与传统的从头药物发现过程相比，药物再利用通过节省时间和成本，在加速设计新药的临床前过程中发挥着至关重要的作用。由于药物再利用依赖于现有药物和疾病的大量观察数据，因此公开可用的大规模机器学习方法的巨大增长为数据科学在疾病、医学、治疗和识别目标方面提供了最先进的应用以最小的错误。 本文介绍了有关利用机器学习方法加速药物再利用的策略和选项的指南 。讨论了如何在精准医学研究中使用机器学习方法，并以机器学习方法如何通过开发中药疗法来加速 COVID-19 药物再利用。本文为使用机器学习方法进行药物再利用提供了很强的合理性，包括在抗击 COVID-19 大流行期间。
原文：[https://link.springer.com/article/10.1007/s12539-021-00487-8]
2021.10，明尼苏达大学双城分校，An In-depth Summary of Recent Artificial Intelligence Applications in Drug Design，26页。
摘要： 目前没有对最近人工智能模型在药物设计 中的应用提供一个深入的总结。本文综述了人工智能模型的理论发展，并详细 总结了人工智能在药物设计中的42个近期应用 。其中13个利用GNN进行分子性质预测，29个利用RL和/或深度生成模型进行分子生成和优化。在大多数情况下，总结的重点是模型，它们的变体，以及针对药物设计中特定任务的修改。此外，将人工智能在分子生成和优化方面的60个额外应用简要总结在一个表格中。最后，本研究对基于人工智能的药物设计的丰富应用进行了全面的讨论，从而明确了基于人工智能的药物设计的任务、潜在解决方案和挑战。
论文：[https://arxiv.org/ftp/arxiv/papers/2110/2110.05478.pdf]
2021.11，阿斯利康制药商、剑桥大学、哈佛医学院、麦吉尔大学等，A Review of Biomedical Datasets Relating to Drug Discovery: A Knowledge Graph Perspective，34页。
摘要：知识图谱(KG)在许多任务中都有应用前景，包括药物再利用、药物毒性预测和目标基因疾病优先排序。在药物发现的KGs中，包括基因、疾病和药物在内的关键元素被表示为实体，而它们之间的关系表示相互作用。然而，要构造高质量的KGs，需要适当的数据。 这篇综述详细介绍了适合用于构建药物发现KGs的公开可用的数据源。对现有的公共药物发现 KGs进行比较分析，并对文献中选取的案例进行评估。此外，提出了与该领域及其数据集相关的独特挑战和问题，同时也强调了未来的关键研究方向。
论文：[https://arxiv.org/pdf/2102.10062.pdf]
代码：[https://github.com/astrazeneca/awesome-drug-discovery-knowledge-graphs]
2018.12，利物浦大学、惠康基因组校区、英国阿斯利康、曼彻斯特大学等，Drug repurposing: progress, challenges and recommendations（Nature Reviews Drug Discovery）。
摘要：鉴于新药的高损耗率、巨大的成本和缓慢的开发速度，重新利用"旧"药物治疗常见和罕见疾病正日益成为一个有吸引力的提议，因为它涉及使用无风险化合物，具有较低的总体开发成本和较短的开发时间。已经提出了各种数据驱动和实验方法来确定可再利用的候选药物; 然而，还有一些重大的技术和监管挑战需要解决。本综述介绍了用于药物再利用(也称为药物再定位)的方法，讨论了药物再利用社区面临的挑战，并提出了解决这些挑战的创新方法，以帮助实现药物再利用的全部潜力。
论文： [https://www.nature.com/articles/nrd.2018.168]
2021.2，印度比朱帕特奈克科技大学、卡纳克·曼贾里药物科学研究所、穆罕默德·本·法赫德王子大学、印度中央科学仪器组织，Drug Repurposing Strategy (DRS): Emerging Approach to Identify Potential Therapeutics for Treatment of Novel Coronavirus Infection（Front. Mol. Biosci.）。
摘要：药物再利用又称为药物重新定位或治疗转换。开展了各种研究，通过利用不同的药物再利用方法来设计新的药物分子，以识别用于治疗COVID-19的药物物质，它们可以作为对病毒蛋白的重要抑制剂。利用药物再利用策略，通过虚拟筛选药物库来确定合适的药物。该方法通过分子相似性和同源性建模等计算工具，有助于确定候选药物与冠状病毒靶蛋白的结合相互作用。为了预测药物受体相互作用和结合亲和力，还进行了分子对接研究和结合自由能计算。参与药物再利用的方法可以分为三组drug-oriented等面向目标的和疾病或therapy-oriented取决于相关的信息质量和数量的理化、生物、药理、毒理学和药物分子的药代动力学性质。本文重点介绍了瑞德西韦、法匹拉韦、利巴韦林、Baraticinib、托西单抗、氯喹、羟氯喹、普卢利沙星、卡菲佐米、比替格韦、奈非那韦、特哥布韦和糖皮质激素等现有药物的药物再利用策略，以确定其对COVID-19治疗的有效性。
论文：[https://www.frontiersin.org/articles/10.3389/fmolb.2021.628144/full]
2020.11，西纳大学、雷丁大学、南安普顿药物安全研究处、朴茨茅斯大学，Challenges for Drug Repurposing in the COVID-19 Pandemic Era（Front. Pharmacol.）。
摘要：冠状病毒病(COVID-19)大流行导致了对现有药物的重新利用，尽管基本的证据基础质量参差不齐。随着人们对COVID-19病毒学和临床表现的认识不断加深，潜在的药理靶点越来越多。 本综述的目的是描述药物再用途的监管和药理方面，并根据注册的临床试验确定拟议用于COVID-19再用途的药物 ，讨论支持它们在这种疾病治疗中的使用的证据。还将讨论如何正确解读现有的临床前/临床证据，以及如何生成与COVID-19药物再利用有关的新证据。
论文：[https://www.frontiersin.org/articles/10.3389/fphar.2020.588654/full]
2020.9，印度兽医研究院，Drug repurposing approach to fight COVID-19（Pharmacological Reports）。
摘要：本综述 将重点讨论当前使用的抗COVID-19药物的再用疗效及其作用机制、药代动力学、给药剂量、安全性和未来前景 。与硅内、体外、体内、人体临床试验、病例报告和新闻档案相关的实验研究文章被选择进行综述。利用病毒发病机制和药物药效学的基本知识，以及计算工具，许多药物目前正在被重新利用。在当前情况下，重新部署药物可被视为治疗COVID-19的新途径。
论文：[https://link.springer.com/article/10.1007/s43440-020-00155-6]
2020.3，北京航空航天大学，A Review on Applications of Computational Methods in Drug Screening and Design（Molecules）。
摘要：本文首先讨论了多尺度生物分子模拟在识别靶向大分子上的药物结合位点和阐明药物作用机制方面的作用。然后， 介绍和讨论了虚拟筛选方法(如分子对接、药效团建模和QSAR)以及基于结构和配体的经典/新药设计 。最后，探讨了机器学习方法的发展及其在上述计算方法中的应用，以加快药物发现的过程。讨论了几种方法相结合的应用实例。不同方法的结合，共同解决不同尺度、不同维度的难题，将是药物筛选与设计的必然趋势。
论文：[https://www.mdpi.com/1420-3049/25/6/1375/htm]
2021.7，印度金奈韦洛尔理工学院，Machine Learning and Deep Learning Methods for Building Intelligent Systems in Medicine and Drug Discovery: A Comprehensive Survey（Medical Image Analysis），27页。
摘要：本文重点 研究机器学习和深度学习在 16 个医学专业中的应用 ，即牙科医学、血液学、外科、心脏病学、肺病学、骨科、放射学、肿瘤学、普通医学、精神病学、内分泌学、神经学、皮肤病学、肝病学、肾病学、眼科和药物发现。本文讨论了这些系统在医疗实践中的进步，以及这些系统对医疗专业人员的影响。
论文：[https://arxiv.org/pdf/2107.14037.pdf]
2021.11，休斯敦安德森癌症中心、瑞典乌普萨拉大学，Enhancing preclinical drug discovery with artificial intelligence，18页。
摘要：人工智能 (AI) 正在成为药物发现不可或缺的一部分。它具有跨越药物发现和开发价值链的潜力，从目标识别到临床开发。这篇综述概述了当前的人工智能技术，并通过强调人工智能产生真正影响的例子来了解人工智能如何重新构想临床前药物发现。考虑到围绕人工智能在药物发现中的兴奋和夸张，我们旨在通过讨论在药物发现中采用人工智能的机遇和挑战来呈现一个现实的观点。
论文：[https://www.sciencedirect.com/science/article/pii/S1359644621005043]
2021.9，澳大利亚7 Grieve Parade、莫纳什药物科学研究所、皇家阿德莱德医院等，Drug repurposing: Misconceptions, challenges, and opportunities for academic researchers（SCIENCE TRANSLATIONAL MEDICINE）。
摘要：药物再利用被推广为一种提供新药的具有成本和时间效益的机制。然而，学术研究人员通常没有充分考虑确保重新利用的药物可用于新适应症所需的过程。致使药物再利用无法兑现其承诺。经常被忽视的重要方面包括财务和知识产权考虑、临床和监管路径以及临床平衡，这为随机对照试验提供了伦理依据。药物再利用的目标是为现有药物获得监管机构批准的新标签，因此，药物再利用和传统药物开发的轨迹相似。在这里，讨论了药物重新利用成功的关键因素，以帮助学术研究人员更好地识别药物重新利用的机会。
原文：[https://www.science.org/doi/abs/10.1126/scitranslmed.abd5524]
2021.11，印度潘迪特·迪恩雅尔石油大学，A comprehensive study on artificial intelligence and machine learning in drug discovery and drug development（Intelligent Medicine），28页。
摘要：本文描述了使用人工智能和机器学习 来增强药物发现和开发 ，使其更加高效和准确。本文对相关研究进行了系统综述。这项工作支持机器学习和人工智能在促进药物开发和发现过程中的作用，使其更具成本效益或完全消除了临床试验的需要，因为能够使用这些技术进行模拟。它们还使研究人员能够更广泛地研究不同的分子，而无需任何试验。本文的结果证明了机器学习和人工智能方法在药物发现中的普遍应用，并预示了这些技术的广阔前景；这些结果应该使研究人员、学生和制药行业能够在药物发现和开发环境中更深入地研究机器学习和人工智能。
论文：[https://www.sciencedirect.com/science/article/pii/S2667102621001066]
2021.11，四川大学、华西医院，The roles of computer-aided drug synthesis in drug development。
摘要：随着计算机计算能力的提高、数据的积累和算法的快速发展，人工智能（AI）与药物合成的融合加速，药物分子的设计和合成得到显着提升。近年来，数据驱动的计算机辅助合成工具迅速广泛地应用于逆合成分析、反应预测和自动化合成，可有效加速药物发现和开发过程，提高设计和合成药物分子的质量。本文回顾了计算机辅助合成技术的发展和应用，从计算机辅助药物设计、计算机辅助药物合成路线设计和计算机辅助智能药物合成机三个方面介绍了计算机辅助药物开发的最新进展。此外，还讨论了计算机辅助药物合成技术的挑战和机遇。
论文：[https://www.sciencedirect.com/science/article/pii/S2666554921001095]
2021.5，英国Relation Therapeutics公司，Utilizing graph machine learning within drug discovery and development，22页。
摘要：图机器学习(GML)因其建模生物分子结构、它们之间的功能关系以及整合多组数据集的能力而受到制药和生物技术行业越来越多的关注。提出了一个关于药物发现和研发多学科的学术-工业综述的主题。在介绍了关键术语和建模方法之后，按时间顺序介绍了药物开发流程，以确定和总结工作包括：靶标识别、小分子和生物制剂的设计，以及药物的重新利用。尽管该领域仍处于新兴阶段，但关键的里程碑，包括重新用途的药物进入体内研究，表明GML将成为生物医学机器学习的建模框架选择。
论文：[https://www.zhuanzhi.ai/vip/e02a09d67ddd5face5f5ec246282f3fa]，[https://academic.oup.com/bib/article/22/6/bbab159/6278145]
2020.9，瑞典阿斯利康，Molecular representations in AI-driven drug discovery: a review and practical guide，22页。
摘要：上个世纪的技术进步，以计算机革命和药物发现中高通量筛选技术的出现为标志，为生物活性分子的计算分析和可视化开辟了道路。为此，有必要以计算机可读且各领域科学家可理解的语法来表示分子。多年来已经开发了大量的化学表示，它们的数量众多是由于计算机的快速发展以及产生包含所有结构和化学特征的表示的复杂性。在这里展示了一些用于药物发现的最流行的电子分子和大分子表示，其中许多是基于图形表示的。此外，描述了这些表示在 AI 驱动的药物发现中的应用。目标是提供一个关于结构表示的简要指南，这对于人工智能在药物发现中的实践至关重要。这篇综述为那些在处理化学表征方面缺乏经验并计划在这些领域的接口上开展应用工作的研究人员提供指导。
论文：[https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00460-5]
2018.8，南方科技大学，Machine Learning Based Toxicity Prediction: From Chemical Structural Description to Transcriptome Analysis（Int J Mol Sci.）。
摘要：毒性预测对公共卫生非常重要。在其众多应用中，毒性预测对于降低药物临床前和临床试验的成本和劳动力至关重要，因为预测的毒性可以避免许多药物评估（细胞、动物和临床）。在大数据和人工智能时代，毒性预测可以受益于机器学习，机器学习已广泛应用于自然语言处理、语音识别、图像识别、计算化学、生物信息学等诸多领域，表现优异。 本文回顾了已应用于毒性预测的机器学习方法，包括深度学习、随机森林、k-最近邻和支持向量机 。还讨论了机器学习算法的输入参数，特别是它从仅描述化学结构描述转变为结合人类转录组数据分析，这可以大大提高预测准确性。
论文：[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6121588/]

进阶（关键技术）

AI 制药领域需要人工智能和药物研发的深度交叉过程，AI可以有效地应用于药物发现的不同领域，包括药物设计、化学合成、药物筛选、多药理学和药物再利用。

药物设计

靶蛋白3D结构预测、药物-蛋白质相互作用预测、药物活性确定、新药设计

2022.1，斯坦福大学、芝加哥大学，ATOM3D: Tasks On Molecules in Three Dimensions (NeurIPS 2021) 。
摘要：在三维分子结构上运行的计算方法有可能解决生物学和化学中的重要问题。特别是，深度神经网络已经获得了极大的关注，但由于缺乏系统的性能基准或用于与分子数据交互的统一工具包，它们在生物分子领域的广泛采用受到了限制。为了解决这个问题， 提出了ATOM3D ，它是一个新的和现有的基准数据集的集合，涵盖了几个关键的生物分子类别。为了降低进入门槛并促进该领域的进一步发展，开源 atom3d Python 包中提供了一整套用于数据集处理、模型训练和评估的工具。
原文：[https://arxiv.org/pdf/2012.04035.pdf]
代码：[https://github.com/drorlab/atom3d]
2022，北京大学、蒙特利尔学习算法研究所、蒙特利尔大学等，Predicting Molecular Conformation via Dynamic Graph Score Matching（唐建，NeurIPS 2021）。
摘要：从 2D 分子图预测稳定的 3D 构象一直是计算化学中的一项长期挑战。最近，与传统的实验和基于物理的模拟方法相比，机器学习方法已经显示出非常有希望的结果。这些方法主要侧重于对分子图上相邻原子之间的局部相互作用进行建模，而忽略了非键合原子之间的长程相互作用。然而，这些非键合原子在 3D 空间中可能彼此接近，并且建模它们的相互作用对于准确确定分子构象至关重要，特别是对于大分子和多分子复合物。本文 提出了一种称为动态图分数匹配 (DGSM) 的新方法，用于分子构象预测 ，该方法通过在训练和推理过程中根据原子之间的空间接近度动态构建图结构来模拟局部和远程相互作用。具体来说，DGSM根据动态构建的图，使用分数匹配方法直接估计原子坐标对数密度的梯度场。可以以端到端的方式有效地训练整个框架。跨多个任务的实验表明，DGSM 在很大程度上优于最先进的基线，并且能够为更广泛的系统（如蛋白质和多分子复合物）生成构象。
原文：[https://proceedings.neurips.cc/paper/2021/hash/a45a1d12ee0fb7f1f872ab91da18f899-Abstract.html]
2022.1，以色列耶路撒冷希伯来大学，Harnessing protein folding neural networks for peptide–protein docking（Nature Communications）。
摘要：提出了一种多肽-蛋白质对接方法，该方法结合了肽-蛋白质相互作用的生物学概念，模拟蛋白质折叠，并利用经过训练的神经网络来 预测蛋白质单体结构。
原文：[https://www.nature.com/articles/s41467-021-27838-9]
代码：[https://github.com/Furman-Lab/Peptide_docking_with_AF2_and_RosettAfold]
2021.12，比利时杨森制药、帝国理工学院，A geometric deep learning approach to predict binding conformations of bioactive molecules（Nature Machine Intelligence_）。
摘要：了解配体与其分子靶标之间形成的相互作用是指导分子优化的关键。已应用不同的实验和计算方法来更好地理解这些分子间相互作用。本文报告了一种基于几何深度学习的方法，该方法能够预测配体与蛋白质靶标的结合构象。该模型基于距离似然学习统计潜力，这是为每个配体-目标量身定制的。这种潜力可以与全局优化算法相结合，以重现配体的实验结合构象。结果表明，此处描述的基于距离似然的潜力与用于对接和筛选任务的成熟评分函数相似或更好。总体而言，这种方法代表了如何使用人工智能来改进基于结构的药物设计的一个例子。
原文：[https://www.nature.com/articles/s42256-021-00409-9]
代码：https://github.com/OptiMaL-PSE-Lab/DeepDock，[https://doi.org/10.5281/zenodo.5510203]
数据集：[https://www.nature.com/articles/s42256-021-00409-9#Sec16]
2021.11，荷兰莱顿药物研究学术中心、西安交通大学，DrugEx v2: de novo design of drug molecules by Pareto-based multi-objective reinforcement learning in polypharmacology（Journal of Cheminformatics）。
摘要：在多药理学中，药物需要与多个特定靶点结合，例如增强疗效或减少耐药性的形成。虽然深度学习在药物发现的从头设计方面取得了突破性进展，但其应用大多只针对单一药物靶点生成类药物活性分子。然而，在现实中，药物分子经常与多个靶点相互作用，这些靶点可能具有预期的(多药理学)或非预期的(毒性)作用。在之前的研究中，提出了一种名为DrugEx的新方法，该方法将探索策略整合到基于RNN的强化学习中，以提高生成分子的多样性。 本文将DrugEx算法进行多目标优化扩展，生成针对多个靶点或一个特定靶点的类药物分子，同时避免脱靶 (本研究中的两个腺苷受体A1AR和A2AAR，以及钾离子通道hERG)。模型使用RNN作为agent，机器学习预测器作为环境。在强化学习框架下，agent和环境都预先进行了训练，然后相互作用。该方法融合了进化算法的概念，通过与agent相同的深度学习模型实现交叉和变异操作。在训练循环过程中，agent生成一批基于smile的分子。随后，环境提供的所有目标的分数被用来构建生成的分子的帕累托秩。对于这个排名，一个非支配的排序算法和谷本基于拥挤距离算法使用化学指纹被应用。证明了化合物的生成具有多种预测的对多个目标的选择性，提供了高效和低毒的潜力。
原文：[https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00561-9]
代码：[https://github.com/XuhanLiu/DrugEx]
2021，瑞士洛桑综合理工学院、瑞士生物信息学研究所、帝国理工学院、Twitter，Fast end-to-end learning on protein surfaces（CVPR 2021）。
摘要：蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明，几何深度学习可用于基于网格的蛋白质表示，以识别潜在的功能位点，例如潜在药物的结合目标。不幸的是，使用网格作为蛋白质结构的底层表示具有多个缺点，包括需要预先计算输入特征和网格连接性。这成为蛋白质科学中许多重要任务的瓶颈。本文 提出了一个新的蛋白质结构深度学习框架 ，以解决这些限制。方法的主要优点之一是从底层原子点云和一个新颖的高效几何卷积层中即时计算和采样分子表面。因此，能够以端到端的方式处理大量蛋白质，将原始 3D 坐标和其原子的化学类型作为唯一输入，无需任何手工制作的预先计算的特征。这些结果将大大简化蛋白质科学中深度学习方法的部署，并为蛋白质建模任务（如功能预测和设计）中的端到端可微方法打开大门。
原文：[https://openaccess.thecvf.com/content/CVPR2021/html/Sverrisson_Fast_End-to-End_Learning_on_Protein_Surfaces_CVPR_2021_paper.html]
代码：[https://github.com/FreyrS/dMaSIF]
2021.10，澳门大学、复旦大学，Prediction of lipid nanoparticles for mRNA vaccines by the machine learning algorithm（Acta Pharmaceutica Sinica B）。
摘要：脂质纳米颗粒 (LNP) 通常用于递送 mRNA 疫苗。目前，LNP优化主要依赖于传统实验筛选可电离脂质，耗费大量成本和时间。目前的研究试图应用计算方法来加速 mRNA 疫苗的 LNP 开发。首先，收集了 325 个具有 IgG 滴度的 mRNA 疫苗 LNP 制剂的数据样本。机器学习算法lightGBM用于构建性能良好（R2>0.87）的预测模型。更重要的是，该算法确定了 LNP 中可电离脂质的关键亚结构，这与已发表的结果非常吻合。动物实验结果表明，使用 DLin-MC3-DMA (MC3) 作为可离子化脂质的 LNP，N/P 比为 6:1，在小鼠体内的效率高于使用 SM-102 的 LNP，这与模型预测一致。分子动力学建模进一步研究了实验中使用的 LNP 的分子机制。结果表明，脂质分子聚集形成LNP，mRNA分子缠绕在LNP周围。综上所述， 首先开发了基于 LNP 的 mRNA 疫苗的机器学习预测模型，并通过实验验证，并进一步与分子建模相结合 。该预测模型未来可用于LNP配方的虚拟筛选。
原文：[https://www.sciencedirect.com/science/article/pii/S2211383521004597]
2021.7，DeepMind，Highly accurate protein structure prediction with AlphaFold（Nature）。
摘要：确定单个蛋白质结构所需的数月至数年的艰苦努力使结构覆盖成为瓶颈。需要准确的计算方法来解决这一差距并实现大规模的结构生物信息学。50多年来，仅根据氨基酸序列预测蛋白质将采用的三维结构——"蛋白质折叠问题"的结构预测部分——一直是一个重要的开放性研究问题。尽管最近取得了进展，但现有方法远远达不到原子精度，尤其是在没有同源结构可用的情况下。本文 提供了第一个计算方法，即使在不知道相似结构的情况下，也可以定期预测具有原子精度的蛋白质结构 。在具有挑战性的第 14 次蛋白质结构预测关键评估 (CASP14)中验证了基于神经网络的模型 AlphaFold 的完全重新设计的版本，在大多数情况下证明了与实验结构竞争的准确性，并且大大优于其他方法。支持最新版本的 AlphaFold 是一种新颖的机器学习方法，它将有关蛋白质结构的物理和生物学知识，利用多序列比对，整合到深度学习算法的设计中。
原文：[https://www.nature.com/articles/s41586-021-03819-2]
代码：[https://github.com/deepmind/alphafold]
2021.6，商汤科技，Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction。
摘要：多类型蛋白质-蛋白质相互作用（PPI）的研究是从系统的角度理解生物过程和揭示疾病机制的基础。目前的评估忽略了新蛋白间的相互作用，因此未能给出有指导意义的评估。因此，从评估和方法两方面来解决这个问题。首先，设计了一个新的评估框架，该框架充分关注新蛋白间的相互作用，并在数据集之间提供一致的评估。其次，认为蛋白质之间的相关性必须为分析新蛋白质提供有用的信息，并在此基础上，提出了一种基于图神经网络的方法（GNN-PPI），以 更好地预测新蛋白质间的相互作用 。
原文：[https://arxiv.org/abs/2105.06709]
代码：[https://github.com/lvguofeng/GNN_PPI]
2021.6，麻省理工学院，GeoMol: Torsional Geometric Generation of Molecular 3D Conformer Ensembles（NeuIPS 2021）。
摘要：提出一种端到端、非自回归和SE(3)-不变的深度学习方法， 用于从分子2D图生成其的3D构象。
原文：[https://proceedings.neurips.cc/paper/2021/file/725215ed82ab6306919b485b81ff9615-Paper.pdf]
代码：[https://github.com/PattanaikL/GeoMol]
2021.3，瑞士阿斯利康，Graph networks for molecular design，Mach Learn: Sci Technol。
摘要：应用于化学的深度学习方法可以用来加速新分子的发现。本文介绍了一个 利用图神经网络(gnn)开发的基于图的分子设计平台 GraphINVENT。 GraphINVENT使用一种分层的深度神经网络架构，以概率的方式每次生成一个单键的新分子。 GraphINVENT中实现的所有模型都可以快速学会构建类似于训练集分子的分子，而不需要任何明确的化学规则编程。这些模型已经使用基于MOSES分布的度量标准进行了基准测试，显示了GraphINVENT模型与最先进的生成模型之间的良好对比。这项工作在GraphINVENT中比较了六种不同的基于gnn的生成模型，并表明最终门控图神经网络比本文考虑的度量性能最好。
原文：[https://iopscience.iop.org/article/10.1088/2632-2153/abcf91]
代码：[https://github.com/MolecularAI/GraphINVENT]
2020.12，瑞士阿斯利康，Practical notes on building molecular graph generative models（Applied AI Letters）。
摘要：介绍了 有关开发用于分子设计的图形生成模型的技术说明和技巧 。在这项工作中，讨论了开发自己的分子生成模型的研究人员可能感兴趣的技术细节，包括对基于图的分子设计和设计新模型的策略的先前工作的概述。还提供了在代码开发过程中有用的开发和调试工具的建议。最后，本文描述了一些经过测试但最终未能在GraphINVENT开发中带来有希望的结果的方法，希望这将帮助其他研究人员避免开发过程中的陷阱，转而将精力集中在更有前途的基于图的分子生成策略上。
原文：[https://onlinelibrary.wiley.com/doi/full/10.1002/ail2.18]
代码：[https://github.com/MolecularAI/GraphINVENT]
2020.10，瑞士阿斯利康，REINVENT 2.0: An AI Tool for De Novo Drug Design。
摘要：通过使用基于图形或字符串(SMILES)的表示，已经设计出了一系列体系结构，以找到生成化合物的最佳方法。本研究目标是 为社区提供一个用于从头设计新药物的生产工具 ，称为REINVENT。它可以有效地应用于药物发现项目，努力解决探索或开发问题，同时导航化学空间。它可以使研究人员注意到最有前途的化合物。
原文：[https://pubs.acs.org/doi/full/10.1021/acs.jcim.0c00915]
代码：[https://github.com/MolecularAI/Reinvent]
2017.9，瑞士阿斯利康，Molecular de-novo design through deep reinforcement learning。
摘要：本工作介绍了一种方法来调整基于序列的分子从头设计生成模型，通过增强的情景似然可以学习生成具有特定理想属性的结构。将演示该模型如何执行一系列任务，例如生成查询结构的类似物和生成预计对生物目标具有活性的化合物。
原文：[https://jcheminf.biomedcentral.com/articles/10.1186/s13321-017-0235-x]
代码：[https://github.com/MarcusOlivecrona/REINVENT]
2020.12，香港英矽科医药有限公司、哈佛大学、瑞士阿斯利康、俄罗斯国立研究大学、多伦多大学、多伦多人工智能矢量研究所等，Molecular Sets (MOSES): A Benchmarking Platform for Molecular Generation Models。
摘要：生成模型正在成为探索分子空间的首选工具。这些模型在大型训练数据集上学习，并产生具有相似特性的新型分子结构。生成的结构可用于虚拟筛选或在下游任务中训练半监督预测模型。虽然有很多生成模型，但尚不清楚如何对它们进行比较和排名。本工作 引入了一个名为 Molecular Sets (MOSES) 的基准测试平台来标准化分子生成模型的训练和比较 。 MOSES 提供训练和测试数据集，以及一组指标来评估生成结构的质量和多样性。
原文：[https://www.frontiersin.org/articles/10.3389/fphar.2020.565644/full]
代码：[https://github.com/molecularsets/moses]
2019.3，英国BenevolentAI公司，GuacaMol: Benchmarking Models for de Novo Molecular Design（J. Chem. Inf. Model.）。
摘要：从头设计旨在通过虚拟设计-制造-测试循环生成具有所需特性配置文件的分子。随着深度学习和神经生成模型在许多应用领域的出现，基于神经网络的分子设计模型最近出现并显示出可喜的成果。然而，新模型并没有针对一致的任务进行分析，并且很少对成熟的算法进行比较研究。为了标准化对从头分子设计的经典模型和神经模型的评估， 提出了一个基于一套标准化基准的评估框架 GuacaMol。基准任务包括测量模型的保真度以重现训练集的属性分布、生成新分子的能力、化学空间的探索和利用，以及各种单目标和多目标优化任务。
原文：[https://pubs.acs.org/doi/10.1021/acs.jcim.8b00839]
代码：[https://www.benevolent.com/guacamol]

化学合成

反应产率预测、逆合成分支预测、反应机理洞察力开发、设计合成路线

2022.1，湖南大学、中南大学、安徽大学，Deep learning in retrosynthesis planning: datasets, models and tools（Briefings in Bioinformatics）。
摘要：近年来，人工智能助力的药物合成给社会带来了极大的便利。由于逆合成分析在合成化学中占有重要的地位，因此受到了研究者们的广泛关注。 本文全面总结了在深度学习背景下逆合成的发展过程 。本综述涵盖了回溯的所有方面，包括数据集、模型和工具。具体来说，报告了来自学术界的代表性模型，此外还详细描述了行业中可用和稳定的平台。还讨论了现有模型的不足之处，并提供了潜在的未来趋势，以便更多的初学者能够快速了解和参与到retrosynthesis planning家族中来。
原文：[https://academic.oup.com/bib/article-abstract/23/1/bbab391/6375056?login=false]
2021.11，伊利诺伊大学香槟分校、纽约大学、Genentech公司，Chemical-Reaction-Aware Molecule Representation Learning（ICLR 2022）。
摘要：分子表征学习(MRL)方法旨在将分子嵌入到真实的向量空间中。然而，现有的基于SMILES (Simplified molecule - input Line-Entry System)或基于GNN (Graph Neural Networks)的MRL方法，要么以SMILES字符串作为难以编码分子结构信息的输入，要么过分强调GNN体系结构的重要性而忽视其泛化能力。在这里，建议 使用化学反应来帮助学习分子表征 。关键思想是在嵌入空间中保持分子相对于化学反应的等价性，即迫使每个化学方程的反应物嵌入和生成物嵌入之和相等。该约束有效地保持了分子嵌入空间的组织性，提高了分子嵌入的泛化能力。此外，模型可以使用任何GNN作为分子编码器，因此对GNN结构是不可知的。
原文：[https://arxiv.org/abs/2109.09888]
代码：[https://github.com/hwwang55/MolR]
2021.10，同济大学，DeepReac+: deep active learning for quantitative modeling of organic chemical reactions（Chemical Science）。
摘要：各种计算方法已经发展为有机化学反应的定量建模; 但由于缺乏通用性以及需要大量的实验数据，限制了其广泛的应用。在此， 提出了一个基于深度主动学习的高效通用计算框架DeepReac+，用于预测化学反应结果和识别最优反应条件 。在这个框架下，DeepReac被设计成一个基于图-神经网络的模型，直接以二维分子结构作为输入，自动适应不同的预测任务。此外，精心设计的主动学习策略，大大减少模型训练所需的实验数量。展示了DeepReac+的通用性和高效性，通过在几种情况下，在三种不同的化学反应数据集上以最少的标记数据实现了最先进的结果。总之，DeepReac+在人工智能辅助化学合成的发展中具有巨大的潜力和应用价值。
原文：[https://pubs.rsc.org/en/content/articlelanding/2021/sc/d1sc02087k]
代码：[https://github.com/bm2-lab/DeepReac]
2021.4，IBM、瑞士伯尔尼大学，Extraction of organic chemistry grammar from unsupervised learning of chemical reactions（SCIENCE ADVANCES）。
摘要：在过去几百年里，化学家们编写了化学合成的语言，通过了解原子在化学转化过程中如何重新排列，推断出一系列的"反应规则"，这个过程被称为原子映射。原子映射是一项费力的实验任务，当用计算方法处理时，需要对化学反应进行连续的注释，并扩展逻辑上一致的指令。 在这里，证明Transformer神经网络在没有监督或人类标记的情况下学习产物和反应物之间的原子映射信息 。利用Transformer注意力权重，构建了一个化学不可知的、注意力引导的反应映射器，并从未注释的反应集合中提取连贯的化学语法。
原文：[https://www.science.org/doi/10.1126/sciadv.abe4166]
代码：[https://github.com/rxn4chemistry/rxnmapper]，demo [http://rxnmapper.ai]
2021.1，IBM、瑞士伯尔尼大学，Mapping the space of chemical reactions using attention-based neural networks（Nature Machine Intelligence）。
**摘要：**有机反应通常被划分为含有类似试剂和机理的一类反应。反应类有助于复杂概念的交流和化学反应空间的有效导航。然而，分类过程是一项繁琐的任务。它需要通过标注反应中的分子数量、反应中心、反应物和试剂的区别来识别相应的反应类模板。在这里，展示了基于转换器的模型可以从化学反应的非注释的、简单的基于文本的表示中推断出反应类。
原文： [https://www.nature.com/articles/s42256-020-00284-w]
代码： [https://rxn4chemistry.github.io/rxnfp]
数据集： [https://rxn4chemistry.github.io/rxnfp/]
2021.1，韩国春川江原国立大学，Substructure-based neural machine translation for retrosynthetic prediction（Journal of Cheminformatics）。
摘要：随着机器翻译方法的快速改进，神经机器翻译开始在逆合成规划中发挥重要作用，为目标分子寻找合理的合成途径。先前的研究表明，利用神经机器翻译的序列到序列框架是解决逆合成规划问题的一种很有前途的方法。 这项工作使用无模板的序列到序列模型将逆合成规划问题重新定义为语言翻译问题 。该模型以端到端和完全数据驱动的方式进行训练。与之前翻译 SMILES 反应物和产物的模型不同，引入了一种基于分子片段来表示化学反应的新方法。
原文：[https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00482-z]
代码：[https://github.com/knu-chem-lcbc/fragment_based_retrosynthesis]

药物重定位

治疗靶点识别、新药治疗用途预测

2022.1，范德堡大学医学中心（美国西南部最大的学术医学中心），Integrating gene expression and clinical data to identify drug repurposing candidates for hyperlipidemia and hypertension（Nature Communications）。
摘要：提出了一种高通量的方法来识别和验证药物重定位的候选药物。
原文：[https://www.nature.com/articles/s41467-021-27751-1]
代码：[https://github.com/hakyimlab/MetaXcan]，[https://github.com/pwatrick/DrugRepurposingToolKit]
数据集 ：[https://pwatrick.github.io/DrugRepurposingToolKit/articles/all_of_us_example.html]
2021.11，慕尼黑工业大学、纽卡斯尔大学、布伦瑞克系统生物学综合中心等，Network medicine for disease module identification and drug repurposing with the NeDRex platform（Nature Communications）。
摘要：本文 研发了NeDRex平台，是一个基于网络的药物再利用和疾病模块发现的整合和交互平台 。NeDRex集成了10个不同的数据源，涵盖基因、药物、药物靶标、疾病注释及其关系。NeDRex允许构建异质生物网络，挖掘它们的疾病模块，优先考虑针对疾病机制的药物，并进行统计验证。平台主要包含知识库NeDRexDB，应用软件NeDRexAPP和API接口NeDRexAPI。在五个特定的用例中演示NeDRex的用途。
原文：[https://www.nature.com/articles/s41467-021-27138-2]
代码：https://github.com/repotrial/nedrex，[https://github.com/repotrial/NeDRexApp]
数据集 ：[https://api.nedrex.net/]
2021.2，哈佛医学院、马萨诸塞州总医院，Machine learning identifies candidates for drug repurposing in Alzheimer's disease（Nature Communications）。
摘要：阿尔茨海默病 (AD) 新疗法的临床试验耗费了大量时间和资源，但结果大多是负面的。将已经获得美国食品和药物管理局 (FDA) 批准的药物用于另一种适应症是一种更快速、更便宜的选择。本文 提出了DRIAD（AD中的药物再利用），这是一种机器学习框架 ，可量化 AD 严重程度（Braak 阶段）的病理学与基因名称列表中编码的分子机制之间的潜在关联。DRIAD 应用于由 80 种 FDA 批准和临床测试的药物在分化的人类神经细胞培养物中产生的基因列表，产生可能的再利用候选者的排名列表。检查得分最高的药物在其目标之间的共同趋势。建议 DRIAD 方法可用于提名药物，在对相关药效生物标志物进行额外验证和鉴定后，可以在临床试验中轻松评估。
原文：[https://www.nature.com/articles/s41467-021-21330-0]
代码：[https://labsyspharm.shinyapps.io/DRIAD/]，[https://github.com/labsyspharm/DRIADrc]
数据集 ：[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164788]
2021.4，以色列梯瓦制药、以色列IBM、希伯来大学，Emulated Clinical Trials from Longitudinal Real-World Data Efficiently Identify Candidates for Neurological Disease Modification: Examples from Parkinson's Disease。
摘要：现实世界的医疗保健数据具有潜力，可以通过有效地定位安全有效的再利用候选药物来确定进展性疾病的治疗方案。这种方法绕过了早期临床发展的关键挑战，特别是与神经系统疾病相关的挑战，符合《21世纪治愈法案》的愿景。然而，到目前为止，这些数据主要用于验证目的，而不是作为药物发现的引擎。 本文展示了真实世界的数据在识别用于疾病修饰作用的候选药物，特别是对帕金森病(PD)进展表现出有益作用的候选上市药物方面的有用性 。
原文：[https://www.frontiersin.org/articles/10.3389/fphar.2021.631584/full#h6]
数据集 ：[https://www.ibm.com/products/marketscan-research-databases/databases]，[https://www.ibm.com/products/explorys-ehr-data-analysis-tools]
2021.1，俄亥俄州立大学，A deep learning framework for drug repurposing via emulating clinical trials on real-world patient data（Nature Intelligence machine）。
摘要：药物再利用是确定现有药物新用途的有效策略，提供从临床到临床最快的过渡。真实世界的数据，如电子健康记录和保险索赔，提供了许多药物的大量用户群体的信息。 本文提出了一个高效的、易于定制的框架，通过对真实世界数据的回顾性分析来生成和测试多个药物再利用的候选药物 。基于成熟的因果推理和深度学习方法，此框架模拟了大规模医疗索赔数据库中药物的随机临床试验。在数百万患者的冠状动脉疾病队列中展示了框架。成功地确定了能显著改善冠状动脉疾病预后但尚未被用于治疗冠状动脉疾病的药物和药物组合，为药物再利用铺平了道路。
原文：[https://www.nature.com/articles/s42256-020-00276-w]
代码：[https://github.com/ruoqi-liu/DeepIPW]
数据集 ：[https://www.ibm.com/products/marketscan-research-databases]

药物筛选

物化性质预测、生物活性预测、毒性预测、靶细胞分类识别

2021.11，国防科学技术大学、中南大学、腾讯量子实验室、浙江大学，MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction（Briefing in Bioinformatics）。
摘要：准确和有效的预测分子性质是药物设计和发现的基本问题之一。人工智能模型在应用于分子性质预测时，往往存在标记数据不足、泛化能力差的问题。本研究提出了分子图BERT (MG-BERT)，将图神经网络(GNNs)的局部信息传递机制整合到功能强大的BERT模型中，以便于从分子图中学习。此外， 提出了一种有效的自监督学习策略——掩蔽原子预测，对大量未标记数据进行MG-BERT模型的预训练，挖掘分子中的上下文信息 。发现MG-BERT模型可以在预训练后生成上下文敏感的原子表示，并将学习到的知识用于预测各种分子性质。MG-BERT模型不需要任何手工制作的特征作为输入，由于其出色的可解释性，更可靠，为开发最先进的模型提供了一个新的框架，用于广泛的药物发现任务。
原文：[https://academic.oup.com/bib/article-abstract/22/6/bbab152/6265201?redirectedFrom=fulltext]
代码：[https://github.com/zhang-xuan1314/Molecular-graph-BERT]
2021.10，日立公司，Knowledge-Embedded Message-Passing Neural Networks: Improving Molecular Property Prediction with Human Knowledge（American Chemical Society）。
摘要：图神经网络（GNN）已经成为一种 通过端到端监督来预测分子特性的有前途的方法 ，因为它可以直接从化学图中以黑盒方式学习分子特征。然而，要实现高预测精度，必须监督大量的属性数据，这往往伴随着高昂的属性实验成本。在深度学习方法之前，基于描述符的定量结构-性能关系 (QSPR) 研究已经研究了物理和化学知识，以手动设计描述符以有效预测属性。这项研究扩展了一个消息传递神经网络 (MPNN)，一种知识嵌入的新型 MPNN 架构(KEMPNN) ，该架构可以与人类专家在包含有关信息的化学图上的非定量知识注释一起 监督分子的重要子结构及其对目标特性的影响 （例如，正面或负面影响）。使用 MoleculeNet（ESOL、FreeSolv、Lipophilicity）中的物理化学数据集和带有虚拟知识注释的聚合物特性（玻璃化转变温度）数据集，在小型训练数据设置中评估了 KEMPNN 的性能。结果表明，具有知识监督的KEMPNN可以提高从MPNN获得的预测精度。
原文：[https://pubs.acs.org/doi/10.1021/acsomega.1c03839]
数据集 ：[http://moleculenet.ai/]，[https://pubs.acs.org/doi/10.1021/acsapm.0c00524?goto=grasupporting-info]
2021.6，巴塞罗那科学技术研究所、加泰罗尼亚国际大学，Bioactivity descriptors for uncharacterized chemical compounds（Nature Communications）。
摘要：本文展示了一组深度神经网络，它们 能够推断任何感兴趣的化合物的生物活性特征 ，即使它们很少或没有可用的实验信息。提出的特征器与 25 种不同类型的生物活性（包括目标谱、细胞反应和临床结果）相关，可用作日常化学信息学任务中化学描述符的替代品。事实上，说明了推断的生物活性特征如何有助于以生物学相关的方式导航化学空间，揭示天然产物集合中的高阶组织，并丰富大多数未表征的化学库以对抗药物-孤儿靶标 Snail1。此外，实施了一系列特征-活动关系 (SigAR) 模型，并在一系列生物物理学和生理学活动预测基准中显示了基于化学分类器的性能显着提高。
原文：[https://www.nature.com/articles/s41467-021-24150-4]
代码：[http://gitlabsbnb.irbbarcelona.org/packages/signaturizer]，[http://gitlabsbnb.irbbarcelona.org/packages/chemical_checker]
数据集 ：[https://chemicalchecker.com/downloads]
2021.6，北京大学深圳研究生院、密歇根州立大学，Algebraic graph-assisted bidirectional transformers for molecular property prediction（Nature Communications）。
摘要：分子性质预测能力对药物发现、人类健康和环境保护具有重要意义。尽管某些机器学习模型（例如来自 Transformer 的双向编码器）可以通过自监督学习策略将大量未标记的分子数据整合到分子表示中，但它忽略了三维 (3D) 立体化学信息。代数图，特别是元素特定的多尺度加权彩色代数图，将互补的 3D 分子信息嵌入到图不变量中。通过融合代数图和双向变换器生成的表示以及各种机器学习算法，包括决策树、多任务学习和深度神经网络，提出了一个代数图辅助双向变换器（AGBT）框架。在8个分子数据集上验证了提议的 AGBT 框架，涉及定量毒性、物理化学和生理学数据集。大量的数值实验表明， AGBT是一种最先进的分子特性预测框架 。
原文：[https://www.nature.com/articles/s41467-021-23720-w]
代码：[https://github.com/ChenDdon/AGBTcode]
数据集 ：[https://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/releases/chembl_26/]，[https://weilab.math.msu.edu/Database/]
2021.3，清华大学深圳国际研究生院，Out-of-the-box deep learning prediction of pharmaceutical properties by broadly learned knowledge-based molecular representations。
摘要：展示了对基于人类知识的分子表征的更广泛的探索，能够增强对药物特性的深度学习。通过广泛学习1456个分子描述符和8506,205个分子的16,204个指纹特征，开发了一种新的特征生成方法MolMap，将这些分子描述符和指纹特征映射为鲁棒的二维特征映射。
原文：[https://www.nature.com/articles/s42256-021-00301-6]
代码：[https://github.com/shenwanxiang/bidd-molmap]
数据集 ：[https://github.com/shenwanxiang/ChemBench/tree/v0]，[https://codeocean.com/capsule/2307823/tree]
2021.3，密歇根州立大学、武汉纺织大学，GGL-Tox: Geometric Graph Learning for Toxicity Prediction（J. Chem. Inf. Model.）。
摘要：毒性分析是药物设计和发现的主要挑战。由于机器学习的准确性、效率和较低的成本，最近通过机器学习取得了重大进展。美国 21 世纪毒理学 (Tox21) 筛选了一个庞大的化合物库，其中包括大约 12000 种环境化学品和药物，以了解导致毒性作用的不同机制。Tox21 数据挑战赛提供了一个平台来评估毒性预测的不同计算方法。受多尺度加权彩色图 (MWCG) 理论在蛋白质-配体结合亲和力预测中的成功启发，将 MWCG 理论用于毒性分析。在目前的工作中， 通过集成 MWCG 特征和梯度提升决策树 (GBDT) 算法开发了几何图学习毒性 (GGL-Tox) 模型。Tox21 数据挑战的基准测试用于证明所提出的 GGL-Tox 模型的实用性和实用性。与其他最先进模型的广泛比较表明，GGL-Tox 是一种准确有效的毒性分析和预测模型。
原文：[https://pubs.acs.org/doi/abs/10.1021/acs.jcim.0c01294]
2021.2，浙江大学、腾讯量子实验室、深圳先进技术研究院、中南大学，Could graph neural networks learn better molecular representation for drug discovery? A comparison study of descriptor-based and graph-based models（Journal of Cheminformatics）。
摘要：图神经网络(GNN)被认为是一种有吸引力的分子性质预测建模方法，大量研究表明，与传统的基于描述符的方法相比，GNN可以产生更有前景的结果。本研究基于覆盖不同属性端点的11个公共数据集，采用8种机器学习(ML)算法，包括4种基于描述符的模型(SVM、XGBoost、RF和DNN)和4种基于图的模型(GCN、GAT、MPNN和FP)， 对预测模型的预测能力和计算效率进行了研究，进行了广泛的测试和比较 。总之，认为现有的基于描述符的模型仍然可以直接用于准确预测各种化学端点，具有良好的可计算性和可解释性。
原文：[https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00479-8]
2020.6，IBM，Using human in vitro transcriptome analysis to build trustworthy machine learning models for prediction of animal drug toxicity（Scientific Reports）。
摘要：机器学习技术可以为评估药物毒性的动物模型提供计算机替代方案，从而减少临床试验期间对最有可能无法通过安全测试的药物进行昂贵和侵入性的动物测试。本文 提出了一个机器学习模型来预测大鼠肾功能障碍 ，作为药物引起的肾毒性的案例。为了实现这一目标，使用化合物处理后源自人类细胞系的廉价转录组谱来训练模型，并结合化合物化学结构信息。基因组学数据由于其稀疏、高维和嘈杂的性质，在构建可信赖和透明的机器学习模型方面提出了重大挑战。在这里，通过从异构来源构建特征集并将它们与通过基于高斯过程的贝叶斯模型实现的模型不确定性度量相结合来解决这些问题。
原文：[https://www.nature.com/articles/s41598-020-66481-0]
数据集 ：[https://maayanlab.net/SEP-L1000/#download]，[https://ntp.niehs.nih.gov/results/drugmatrix/index.html]
2019.11，IBM，Combining human cell line transcriptome analysis and Bayesian inference to build trustworthy machine learning models for prediction of animal toxicity in drug development（NeurIPS 2019）。
摘要：生物医学数据，特别是基因组学领域的数据，具有对机器学习应用具有挑战性的特点——它可能是稀疏的、高维的和有噪声的。生物医学应用也对模型选择提出了挑战——尽管强大、准确的预测是必要的，但它们不足以使模型被视为有用。由于预测的性质，模型还必须是可信任和透明的，使从业者有信心使用它是适当和可靠的。本文通过建立特征集与贝叶斯模型，特别是高斯过程来实现。 将高斯过程应用于药物发现，利用人类细胞系的廉价转录组谱预测特定化合物治疗后动物肾脏和肝脏的毒性 。如果体外人体细胞系分析能够准确预测模型动物表型，这种方法有可能减少临床试验中侵入性和昂贵的动物试验。
原文：[https://arxiv.org/abs/1911.04374]
2019.7，麻省理工学院，Analyzing Learned Molecular Representations for Property Prediction。
摘要：神经机制的进步为分子性质预测带来了广泛的算法解决方案。有两类模型产生了很有希望的结果:应用于计算分子指纹或专家制作的描述符的神经网络，以及通过操作分子的图结构来构建学习分子表示的图卷积神经网络。然而，最近的文献还没有明确地确定这两种方法中哪一种在推广到新的化学空间时更优越。此外，以往的研究很少在工业研究环境中对这些新模型进行比较，而不是现有的应用模型。本文在跨越各种化学终点的19个公共和16个专有工业数据集上广泛地对模型进行基准测试。此外，引入了一个图卷积模型，该模型在公共和私有数据集上始终匹配或优于使用固定分子描述符的模型以及以前的图神经结构。
原文：[https://pubs.acs.org/doi/full/10.1021/acs.jcim.9b00237]
代码：[https://github.com/chemprop/chemprop]
2018.4，斯坦福大学、南开大学，PotentialNet for Molecular Property Prediction。
摘要：提出了图卷积的 PotentialNet 系列模型，为蛋白质-配体结合亲和力而设计并实现了最先进的性能。
原文：[https://pubs.acs.org/doi/pdf/10.1021/acscentsci.8b00507]

新药研发知识图谱

2022.1，哥本哈根大学，A knowledge graph to interpret clinical proteomics data（Nature Biotechnology）。
摘要：实施精准医学取决于将蛋白质组学等组学数据整合到临床决策过程中，但生物医学数据的数量和多样性，以及临床相关知识在多个生物医学数据库和出版物中的传播，对数据集成。在这里，展示了临床知识图谱 (CKG)，这是一个开源平台，目前包含近 2000 万个节点和 2.2 亿个关系，代表相关的实验数据、公共数据库和文献。图谱结构提供了一个灵活的数据模型，当新数据库可用时，该模型很容易扩展到新节点和关系。 CKG 结合了统计和机器学习算法，可加速典型蛋白质组学工作流程的分析和解释。使用一组概念验证生物标志物研究，展示了 CKG 如何增强和丰富蛋白质组学数据并帮助为临床决策提供信息。
论文：[https://www.nature.com/articles/s41587-021-01145-6?utm_source=xmol&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata]
代码：[https://github.com/MannLabs/CKG]， [https://CKG.readthedocs.io]
2022.1，湖南大学、中国科学院计算机网络信息中心，Multi-task Joint Strategies of Self-supervised Representation Learning on Biomedical Networks for Drug Discovery。
摘要： 生物医学网络上的自我监督表征学习(Self-supervised representation learning, SSL)为缺乏生物或临床表型的药物发现提供了新的机会。然而，如何有效地组合多个SSL模型是一个挑战，很少有人研究。因此，提出了一种用于药物发现的生物医学网络自监督表征学习的多任务联合策略，命名为MSSL2drug。设计了六个基本的SSL任务，这些任务的灵感来自于生物医学异构网络的各种模态特征，包括结构、语义和属性。此外，在两种药物发现情境下，利用基于图注意力机制的对抗多任务学习框架对15种多任务组合进行了评估。研究结果表明：(1)与其他多任务联合策略相比，多模态任务组合的性能最佳。(2)局部和全局SSL任务联合训练比随机任务组合训练具有更高的性能。因此，推测，多模式和局部-全局组合策略可以作为多任务SSL药物发现的指导方针。
论文： [https://arxiv.org/ftp/arxiv/papers/2201/2201.04437.pdf]
代码： [https://github.com/pengsl-lab/MSSL2drug.git]
2021.11，浙江大学、中南大学、浙江大学、腾讯量子实验室，A unified drug–target interaction prediction framework based on knowledge graph and recommendation system（Nature Communications）。
摘要：药物靶点相互作用(DTI)预测在药物的虚拟筛选、药物再利用和潜在药物副作用的识别等领域都发挥着重要作用。尽管在DTI预测方面投入了大量的努力，但现有的方法仍然存在DTI数据集的高稀疏性和冷启动问题。在此，将知识图谱(KG)和推荐系统相结合，开发了DTI预测的统一框架KGE_NFM。该框架首先学习KG中各种实体的低维表示，然后通过神经分解机(NFM)集成多模态信息。KGE_NFM在三个现实场景下进行了评估，并在四个基准数据集上实现了准确而稳健的预测，特别是在蛋白质冷启动场景下。
论文：[https://www.nature.com/articles/s41467-021-27137-3]
代码：[https://zenodo.org/record/5500305]
2021.11，阿斯利康制药商，Biological Insights Knowledge Graph: an integrated knowledge graph to support drug development，24页。
摘要：本文提出了Biological Insights Knowledge Graph (BIKG)知识图谱，结合了来自公共开源的和阿斯利康内部的药物开发数据源，为从新靶点识别到现有药物重利用等一系列任务提供洞见。本文描述了实现BIKG的主要设计选择，并讨论了它生命周期的不同方面：从图谱的构建到开发。
论文：[https://www.biorxiv.org/content/10.1101/2021.10.28.466262v1.full.pdf]
2021.12，浙江大学、杭州创新中心、AZFT知识引擎实验室、杭州西湖生命科学与生物医学实验室，Molecular Contrastive Learning with Chemical Element Knowledge Graph（AAAI 2022）。
摘要：分子表征学习有助于多个下游任务，例如分子特性预测和药物设计。为了正确表征分子，图对比学习是一种很有前途的范式，因为它利用自我监督信号并且不需要人工注释。然而，先前的工作未能将基础领域知识整合到图语义中，因此忽略了具有共同属性但不直接通过键连接的原子之间的相关性。为了解决这些问题， 构建了一个化学元素知识图谱 (KG) 来总结元素之间的微观关联，并提出了一种用于分子表征学习的新型知识增强对比学习 (KCL) 框架。 KCL 框架由三个模块组成。第一个模块，知识引导图增强，基于化学元素 KG 增强原始分子图。第二个模块，知识感知图表示，使用用于原始分子图的通用图编码器和知识感知消息传递神经网络 (KMPNN) 提取分子表示，以在增强分子图中编码复杂信息。最后一个模块是一个对比目标，最大化这两种分子图视图之间的一致性。大量实验表明，KCL 在八个分子数据集上获得了针对最先进基线的卓越性能。可视化实验正确地解释了 KCL 从增强分子图中的原子和属性中学到的东西。
原文：[https://arxiv.org/abs/2112.00544]
代码：[https://github.com/ZJU-Fangyin/KCL]
2020，阿斯利康的健康信息总监Paul Agapow，Social Graphs for Drug Development，
简介：构建社交图谱——知识图谱——通过提供更好的清晰度和对异构数据集的访问来改善临床试验的过程和降低成本。
资讯：[https://dzone.com/articles/social-graphs-for-drug-development]
视频：[https://youtu.be/9yU8aLfJ9bM]

数据集

PubChem ：是美国国立卫生研究院(NIH)的一个开放化学数据库。"开放"意味着你可以将你的科学数据放在PubChem中，其他人可以使用它。自2004年推出以来，PubChem已成为科学家、学生和公众的关键化学信息资源。每个月，网站和程序化服务为全球数百万用户提供数据。PubChem主要包含小分子，但也有较大的分子，如核苷酸、碳水化合物、脂质、多肽和化学修饰的大分子。收集有关化学结构、标识符、化学和物理性质、生物活动、专利、健康、安全、毒性数据等方面的信息。[https://pubchemdocs.ncbi.nlm.nih.gov/about]
ChEMBL ：是一个人工管理的具有类药物特性的生物活性分子数据库。它汇集了化学、生物活性和基因组数据，以帮助将基因组信息转化为有效的新药。[https://www.ebi.ac.uk/chembl/]
Decagon (Bio-decagon)：是一个用于多药副作用识别问题的数据集，它被构造为一个包含药物和蛋白质两种节点类型的两层多模态图/网络中的多关系链接预测问题。蛋白质-蛋白质相互作用网络描述蛋白质之间的关系。药物-药物相互作用网络包含964种不同类型的边缘(每一种副作用类型对应一条边)，描述了哪些药物对导致哪些副作用。最后，药物-蛋白质连接描述了特定药物所针对的蛋白质。[http://snap.stanford.edu/decagon/]
BioGRID ：是一个生物医学交互知识库，其数据通过全面的管理工作编译而成。目前的索引版本为4.2.192，检索了来自主要模式生物物种的75,868篇出版物，涉及1997,840种蛋白质和遗传相互作用、29,093种化学相互作用。[https://downloads.thebiogrid.org/BioGRID]
DrugBank ：是一个全面、免费的在线数据库，包含有关药物和药物目标的信息。作为一种生物信息学和化学信息学资源，将详细的药物(即化学、药理和药学)数据与全面的药物靶点(即序列、结构和通路)信息结合起来。DrugBank Online被制药行业、药物化学家、药剂师、医生、学生和公众广泛使用。[https://go.drugbank.com/releases/latest]
KEGG ：是一个从分子水平信息，特别是基因组测序和其他高通量实验技术生成的大规模分子数据集，了解生物系统的高级功能和用途的数据库资源，如细胞、有机体和生态系统。[https://www.kegg.jp/]
PDBbind ：为蛋白质数据库(PDB)中沉积的所有生物分子复合物提供一个全面的实验测量结合亲和力数据的收集。它提供了这些配合物的能量和结构信息之间的基本联系，这有助于分子识别、药物发现等各种计算和统计研究。[http://www.pdbbind.org.cn/]
BindingDB ：是一个公开的、可通过网络访问的结合亲和力数据库，主要关注被认为是药物靶标的蛋白质与小的类药物分子之间的相互作用。截至2022年2月6日，BindingDB包含41296个条目，每个条目包含一个DOI，包含8661个蛋白质靶标和1,039,940个小分子的2412,668个结合数据。[http://www.bindingdb.org/bind/index.jsp]
UniProt ：为科学界提供全面、高质量和免费获取的蛋白质序列和功能信息资源。[https://www.uniprot.org/]
DILIrank ：是LTKB Benchmark数据集的更新版本。DILIrank由1036种fda批准的药物组成，根据其引起药物性肝损伤(DILI)的可能性将其分为4类。DILI分类是通过分析fda批准的药物标签文件中出现的肝毒性描述和评估文献中的因果关系证据而得出的。具体地说，这个最大的公开可用注释的DILI数据集包含三个组(vMost-，vLess-和vNo-DILI关注)，其中有证实的因果证据将药物与肝损伤联系起来，还有一个额外的组(ambig- DILI关注)，其因果关系尚未确定。[https://www.fda.gov/science-research/liver-toxicity-knowledge-base-ltkb/drug-induced-liver-injury-rank-dilirank-dataset]

开源工具

TorchDrug ：Mila 唐建团队开源了机器学习药物研发平台 TorchDrug，这是一个专为药物研发设计的机器学习平台。涵盖从图机器学习（图神经网络、几何深度学习和知识图谱）、深度生成模型到强化学习的技术，它提供了一个全面而灵活的接口来支持 PyTorch 中药物发现模型的快速原型设计。该平台包含四项关键功能，分别为：最小化领域知识、数据集与搭建模块、综合基准测试、可扩展的训练和推理。[http://torchdrug.ai/]
AlphaFold ：预测蛋白质的3D结构。[https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery]
DeepChem ：DeepChem的目标是提供一个高质量的开源工具链，使深度学习在药物发现、材料科学、量子化学和生物学领域的应用普及。https://github.com/deepchem/deepchem
DeepTox ：DeepTox是一个预测化合物毒性效应的工具，可以预测12000种药物毒性。[http://www.bioinf.jku.at/research/DeepTox/]
DeepNeuralNetQSAR ：基于python的系统，用于辅助检测化合物的分子活性。[https://github.com/Merck/DeepNeuralNet-QSAR]
ORGANIC ：是一种高效的分子生成工具，能够创建具有所需属性的分子。它有一个面向用户的界面，并且不需要HPC集群。[https://github.com/aspuru-guzik-group/ORGANIC]
PotentialNet ：利用神经网络预测配体的结合亲和力。[https://pubs.acs.org/doi/pdf/10.1021/acscentsci.8b00507]
NERDD ：维也纳大学系列药物发现工具。[https://nerdd.univie.ac.at/]

CYPstrate由一系列机器学习分类器(随机森林和支持向量机)组成，用于预测异种生物代谢中9种最重要的人类CYP同工酶的底物和非底物(即CYPs 1A2, 2A6, 2B6, 2C8, 2C9, 2C19, 2D6, 2E1和3A4)。这些模型是在由1831个基板和非基板组成的高质量数据集上进行训练的，这些数据集由公共来源编译而成。
CYPlebrity是一组机器学习模型的集合，用于预测一种小型有机化合物是否为不同人类CYPs的抑制剂。目前，CYPlebrity产品包括CYPs 1A2、2C9、2C19、2D6和3A4。这些模型的特点是其广泛的适用性领域，这是对PubChem Bioassay数据库(AIDs 1851、410、883、884、899和891)、ChEMBL数据库和ADME数据库(富士通)编制的综合生物活性数据库进行培训的结果。
FAME 3是一组用于预测代谢(SoMs)一期和二期位点的机器学习模型。SoMs是一个代谢反应开始的原子，因此，是一个很好的起点，以确定外生物化合物的代谢命运。
GLORY是一种工具，用于预测由属于细胞色素P450 (CYP)酶家族的酶在人体中形成的代谢物。
GLORYx是一个工具，预测人类代谢物。包括I期和II期代谢。
Hit Dexter是一种机器学习方法，用来估计一个小分子在生化和生物分析中引发积极反应的可能性。这些模型来自于25万种化合物的数据集，这些化合物经过实验确定至少有100种不同的蛋白质组具有活性。
NP-Scout是一项免费的网络服务，服务对象是:大型分子文库中天然产物的鉴定；小分子天然产物相似性的量化；天然产物或合成分子特征的小分子中的原子和区域的可视化(基于相似图)。NP-Scout利用由超过265k天然产物和合成分子组成的数据集训练的随机森林分类器。
Skin Doctor CP机器学习模型，用于将小型有机化合物分类为皮肤敏感剂和非敏感剂。更具体地说，Skin Doctor CP的核心是一个随机森林二分类器，它被包裹在一个聚合的蒙德里安保形预测框架中。这允许用户为分类定义一个错误重要级别(即错误率)。因此，预测(即敏化剂或非敏化剂)只对预期可靠性达到或超过用户定义的错误率的化合物进行报告。框架的误差显著性级别参数可以调整。Skin Doctor CP是在当地淋巴结试验(LLNA)中测量的1285种化合物的管理数据集上训练的。

DeltaVina ：提供蛋白质配体结合亲和力的评分功能。[https://github.com/chengwang88/deltavina]
Neural graph fingerprint ：该软件包实现了以任意大小的分子图作为输入卷积网络。这些对预测新分子的性质很有用，并被设计为Morgan或ECFP指纹的直接替代品。[https://github.com/HIPS/neural-fingerprint]
Chemputer ：帮助以标准格式描述化学合成过程。[https://zenodo.org/record/1481731#.YgR_FupByUk]
OpenChem ：用于计算化学和药物设计的基于PyTorch的深度学习工具包。提供了简单快速的模型开发、模块化的软件设计和多个数据预处理模块。[https://github.com/Mariewelt/OpenChem]

教程

题目：AI+化学与制药|人工智能为药物研发和化学研究按下快进键
简介：2020年6月29日，青创联盟发起的YOSIA Webinar线上学术研讨会特别推出了“AI+X”科学系列主题，本期主题为AI+化学与制药，汇集化学、制药、化工、生物和AI技术专家，主要针对人工智能在药物发现、化学化工领域的学科交叉研究与应用进行了分享。
嘉宾：翁经科，麻省理工白头生物医学研究所成员、麻省理工学院生物系副教授；李成涛，Galixir星药科技创始人；裴剑锋，北京大学前沿交叉学科研究院特聘研究员, 博士生导师；申威峰，重庆大学特聘研究员，博士生导师；杨东，博士，西湖大学副研究员；杨庆怡，博士，辉瑞有限公司医药计算化学科学家
链接：https://www.163.com/dy/article/FIB7OET90511CTRH.html
教程视频 ：https://v.qq.com/x/page/k3082h3cxsv.html
题目：人工智能药物发现（KDD 2021 Tutorial Artificial Intelligence for Drug Discovery）
简介：药物发现是一个漫长而昂贵的过程，平均需要10年时间和25亿美元来开发一种新药。人工智能有潜力通过分析生物医学领域产生的大量数据，如生物测定、化学实验和生物医学文献，来显著加速药物发现的进程。最近，在许多不同的领域，包括机器学习、数据挖掘和生物医学领域，人们对开发人工智能技术用于药物发现越来越感兴趣。在本教程中，我们将详细介绍药物发现中的关键问题，如分子性质预测、新生分子设计和分子优化、反合成反应和预测、药物再利用和组合，以及针对这些问题的人工智能关键技术进展。本教程可以作为对药物发现感兴趣的计算机科学家和药物发现从业者的入门材料，以便沿着这个方向学习最新的人工智能技术。
讲者：Mila 唐建
教程PPT：
专知：[https://www.zhuanzhi.ai/vip/686bec121da8742329306c0492f2cfba]，
KDD 2021 Tutorial PPT：[https://drive.google.com/file/d/1Zvjh_6u-GKHdI_vO4nlgAfSnnuz7YUR2/view]，
AAAI 2021 Tutorial PPT：[https://drive.google.com/file/d/1eMhDMw1nIXIVM__kLTWrhuc5WzEv7pWs/view]
题目：图表示学习在药物发现中的应用（Graph Representation Learning for Drug Discover）
简介：图表示学习技术是机器学习和数据挖掘领域中一个快速发展的主题，专注于图形结构数据的深度学习。由于该领域中的许多数据都是分子和生物医学知识图等图形结构的数据，它为药物发现带来了巨大的机遇。在本次演讲中，将介绍在药物发现的图表示学习方面的最新进展，包括: (1)分子性质预测; (2)从头分子设计与优化; (3)反合成预测。
讲者：Mila 唐建
教程PPT：[https://www.zhuanzhi.ai/vip/fe8fbf554eb5e8fec85bdcb48930f963]，[https://drive.google.com/file/d/19e0scMh4Fxzsbq6a8Z9idsYcsnLAgYAx/view]
题目：药物发现与开发的数据挖掘方法（Data Mining Methods for Drug Discovery and Development）
简介： 医学中的硅模型是指直接使用计算方法来支持药物的发现和开发。机器学习和数据挖掘方法已经成为硅模型的一个组成部分，并且在药物发现和开发过程的各个阶段都显示出了良好的性能。本教程将介绍数据分析方法在药物研发中的应用，包括概述相关数据和分析任务，然后介绍这些任务的启用数据分析方法；描述这些任务的具体应用。
讲者： Cao (Danica) Xiao 是IQVIA卓越分析中心的机器学习主任。她正带领IQVIA的北美机器学习团队推动下一代医疗人工智能。她的团队致力于各种疾病建模和硅化药物建模项目（例如，药物不良反应检测、药物重新定位和从头设计）。
网址： [http://drug.sunlab.org/]
教程PPT：背景，数据，任务（分子表示学习、定量构效关系（QSAR）建模、药物重新定位、药物相互作用、药物分子全新设计），未来方向

资源汇编 ：A Survey of Artificial Intelligence in Drug Discovery
简介：本库以Jianyuan Deng等人的 [Artificial Intelligence in Drug Discovery: Applications and Techniques]（人工智能在药物发现中的应用与技术）为基础，汇编了相关领域的著作。
网址： [https://github.com/dengjianyuan/Survey_AI_Drug_Discovery]
提纲：

Reviews and Perspectives
- General Drug Discovery
- Drug Discovery in the AI Era
- AI-Driven Drug Discovery: Hope or Hype
Data, Representation and Benchmarks
- Large-Scale Databases PubChem
  - ChEMBL
  - ZINC
  - Others
- Molecular Representations]
- Benchmark Platforms MoleculeNet
  - MolMapNet
  - ChemProp
  - REINVENT
  - Guacamol
  - MOSES
  - GraphINVENT
  - ATOM3D
Model Architectures
- Convolutional Neural Networks
- Recurrent Neural Networks
- Graph Neural Networks
- Variational Autoencoders
- Generative Adversarial Networks
- Normalizing Flow Models
- Transformers
Learning Paradigms
- Self-Supervised Learning Generative Learning
  - Contrastive Learning
- Reinforcement Learning
- Other Learning Paradigms Metric Learning
  - Few-Shot Learning
  - Meta Learning
  - Active Learning
Addressing Existing Challenges