发现具有所需性质的新分子和新材料对我们成功应对全球挑战,如气候危机或新兴疾病,至关重要。然而,在几乎无限且离散的化学搜索空间中进行导航,同时又要尊重一系列多属性目标,这是极具挑战性的。在过去的几十年里,化学工业不仅面临着生产力下降,而且新材料和分子的研发成本也在不断攀升。近期,分子生成模型结合虚拟筛选方法在高效、系统地探索化学空间上展示了有希望的结果。人们寄望于这些方法能加速分子的发现过程,特别是当它们与化学合成规划工具和自动实验室的机器人硬件配合使用时。然而,大多数生成模型都是针对简单化、以化学为中心的目标进行优化,忽视了关于分子目标环境的系统级信息,因此不能用于生成条件性的分子以满足一系列广泛的目标。这篇论文主要研究如何开发可以根据语义环境进行查询,灵活生成分子以满足所需条件的条件性分子生成模型,而无需进行特定的优化。此外,该论文旨在通过开发具有关于连续性质的归纳偏见,且在预测此类性质上表现优秀的分子生成模型,以改进从头设计和性质预测的“纠缠”。这是通过利用自然语言和有机化学之间的类比来实现的。

作为生成建模的先决条件,这篇论文的第一部分致力于构建分子性质的预测模型。第一章提出了一个简单而稳健、可解释的化学语言模型,该模型大量依赖数据增强,并被证明在一系列性质(如毒性)上表现出强大的性能。接下来的一章发展了用于预测蛋白质-配体结合亲和力的蛋白质化学度量语言模型,并证明通过从蛋白质序列中去除超过95%的残基,人类蛋白质激酶的结合亲和力预测性能显著提高。这篇论文的第二部分关注的主要目标是开发条件性分子设计的生成语言模型。利用强化学习优化方案中的性质预测器,得出一个可以在生物分子环境向量(例如,恶性肿瘤的基因表达签名或一个目标蛋白质)上进行条件设置,并生成对此环境具有高亲和力的分子的生成模型。实验证明,这种方法具有很好的泛化性,即使在缺乏实验数据的情况下,也能提出具有高选择性的分子,针对未见过的蛋白质目标。在关于加速分子发现的案例研究中,提出的生成模型被集成到一个完全自动的工作流程中,这个过程涵盖了回溯合成模型,合成协议生成,以及在机器人硬件上成功进行湿实验室合成。最后一章提出了一个多任务语言模型,将回归抽象为条件序列建模问题,从而统一了前面关于分子性质预测和条件生成的工作在同一模型中。这个模型不仅在回归任务上表现出色,尽管依赖于分类损失,而且还可以同时对任意分子子结构和连续目标性质进行条件设置。如所示,这个模型在条件分子设计中超越了专门的方法,并且可以基于所需的性质引物,无需任何优化,就可以装饰种子分子、蛋白质或化学反应。这在性质驱动的化学空间局部探索中找到了特别的应用,并为材料设计中的基础模型铺平了道路。

总的来说,这篇论文可能通过提供改善被视为下游化学合成和湿实验室实验考虑的平均假设质量的方法,为加速分子发现作出贡献。

成为VIP会员查看完整内容
29

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
46+阅读 · 2022年11月24日
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
50+阅读 · 2022年8月31日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年7月24日
Arxiv
0+阅读 · 2023年7月21日
A Survey of Large Language Models
Arxiv
329+阅读 · 2023年3月31日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员