寻找与特定蛋白质强烈结合的药物分子是药物发现过程的一个组成部分。为此,已经开发了旨在计算机内部筛查大量潜在结合体的虚拟筛查算法。这些算法使用评分函数来评估计算预测的结合姿态的正确性,并预测结合亲和力。近年来,研究已转向基于深度学习的评分函数,这些函数使用结合数据建立结合行为模型;这是本论文的主题。第一章是对与后续章节相关的概念和文献的介绍。这包括基于片段的药物发现、虚拟筛查以及虚拟筛查中的机器学习方法。它还涉及到输入归因问题,即为基于深度学习的评分函数的输入中的原子或键分配重要性,以及机器学习算法基于数据集偏见进行分类而不是学习控制蛋白质-配体结合的物理相互作用的问题。第二章的大部分内容是关于虚拟筛查的卷积神经网络的发表。使用几个实验探索了学习训练集偏见而不是物理相互作用的问题,并提出了一种数据集增强的方法来对抗这种效果。一个精心策划的验证集,独立于任何训练数据进行构建,被用来显示在分类决策中增加了对蛋白质信息的使用;在几个案例研究上使用输入归因来证明这一点。

第三章涉及到PointVS设计和工程决策。这是一个用于姿态分类和亲和力预测的图神经网络快速原型设计和测试的软件包。它包括各种辅助任务的脚本,如数据集生成、输入归因可视化和日志记录,并已被牛津蛋白质信息学组的另一名成员用于一篇简要描述的论文。PointVS是另一篇在写作时正在审查中的出版物的基础;这构成了第四章。与另一名学生合作,图神经网络被用于姿态分类和亲和力预测,训练集和测试集被仔细设置以避免信息泄露。PointVS与几种其他方法进行了比较,取得了有竞争力的表现。从PointVS获得的归因得分被转换为蛋白质热点图,这些热点图被用作片段扩展的生成模型的输入。这一结果优于使用标准物理导出的热点图的结果,这证明了图神经网络可以挑选出重要的蛋白质-配体相互作用。最后,我们从宏观的角度看待基于机器学习的评分函数领域。我们得出结论,尽管这些方法有前景,但为了训练真正“理解”蛋白质-配体结合的宇宙的模型,必须克服几个障碍。我们建议将输入归因真实测试集作为一个可能的进一步研究领域,并确定了一个可能的生成方法。我们得出结论,许多关于机器学习评分函数相对于其基于物理启示的前身的改进都被高估了,并且需要一个明确考虑到水的更动态的结合视图。

成为VIP会员查看完整内容
12

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
【牛津大学博士论文】关系数据的学习和推理,243页pdf
专知会员服务
53+阅读 · 2022年11月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
399+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员