机器学习解决核磁共振谱中「谁是谁」的问题,可直接从晶体结构预测化学位移

2021 年 12 月 12 日 机器之心
编辑/凯霞
核磁共振技术(NMR )可用于有机化合物结构鉴定,以及分子和材料的化学动力学研究。对有机材料进行 NMR 研究的先决条件是将每个实验化学位移分配给一组几何等效的原子核。然而,通过实验获得分配可能具有挑战性,并且通常需要耗时的多维相关实验。
通过与实验化学位移数据库的统计分析进行比较分配将是一种解决方案,但没有这样的分子固体数据库。
来自洛桑联邦理工学院的研究人员通过 将剑桥结构数据库(CSD)与化学位移的机器学习模型(ShiftML)相结合,创建了自己的有机固体化学位移数据库,可以直接从分子固体结构预测化学位移。
该研究以Bayesian probabilistic assignment of chemical shifts in organic solids为题,于 11 月 26 日发表在《Science Advances》上。
NMR
化学位移分配是 NMR 研究的起点。在天然同位素丰度的有机固体中,这仍然是一个费力且具有挑战性的过程。特别是,13C 共振分配通常需要使用直通键 13C-13C 双量子/单量子相关 (INADEQUATE) 实验。然而,在大多数应用中,完整的晶体结构是未知的,基于从头化学位移的 NMR 晶体学依靠化学位移赋值从一组候选晶体中确定晶体结构

利托那韦的 13C CPMAS 谱。

通过化学位移的统计分析,可以直接从其序列中获得蛋白质和 RNA 等生物分子的化学位移分配。此外,通过将原子接触与核 Overhauser 效应实验相匹配,可以同时获得化学位移分配和结构测定。这些方法依赖于实验化学位移和分子结构的大型数据库的存在。然而,据我们所知,对于有机晶体,这种庞大而多样的化学位移数据库并不存在。
机器学习(ShiftML)模型
本研究使用的机器学习算法 ShiftML,是该团队之前共同开发的 https://www.nature.com/articles/s41467-018-06972-x )。使用 DFT 计算进行训练,无需执行额外的量子计算,就可以对新结构进行准确预测。尽管达到了 DFT 精度,但该方法可以在几秒钟内计算出具有约 100 个原子的结构的化学位移,与当前的 DFT 化学位移计算相比,计算成本降低了 10,000 倍。该方法的精度与所检测的结构大小无关,预测时间与原子数成线性关系。这为在以前不可行的情况下计算化学位移奠定了基础。

用于化学位移预测的机器学习模型方案。

在新的研究中,该团队使用 ShiftML 来预测从 CSD 中提取的 200,000 多种化合物的变化,然后将获得的变化与分子环境的拓扑表示相关联。这涉及构建一个图来表示分子中原子之间共价键,将其扩展到远离中心原子的给定数量的键。然后,他们将数据库中所有相同的图形实例汇集在一起,从而获得每个基序的化学位移的统计分布。这种表示是分子中原子周围共价键的简化,不包含任何 3D 结构特征:这使他们能够通过结合分子中所有原子分布的边缘化方案,直接从其二维化学结构中获得有机晶体 NMR 光谱的概率分配。
可行性证明
在构建化学位移数据库后,该方法通过 11 种分子固体的 13C 和 1H 分配与实验位移进行了证明,这些有机分子的碳化学位移分配已经(至少部分)通过实验确定:茶碱、百里酚、可卡因、士的宁、AZD5718、赖诺普利、利托那韦、青霉素 G 的 K 盐、β-吡罗昔康、地西他滨和辛伐他汀。
研究发现: 在大多数情况下,直接从分子的二维表示中获得的分配概率与实验确定的分配相匹配。 研究结果对应原文图 2~图 7 所示
最后,研究人员在具有 10 到 20 个不同碳原子的 100 个晶体结构的基准集上评估了框架的性能。他们使用每个原子的 ShiftML 预测位移作为正确分配,并将它们从用于分配分子的统计分布中排除。
模型性能。
研究发现使用光谱编辑和相关的 1H-13C 化学位移分布,可以提高模型正确分配碳化学位移的能力。在超过 80% 的情况下,使用化学位移的二维统计分布、光谱编辑或两者的结合导致实验分配成为两个最可能的边缘分配之一。总体而言,实验基准集的性能与合成基准集一致,除了使用光谱编辑时,观察到实验集与合成集相比略有改进。
该方法不限于 1H 和 13C,原则上可用于指定氢、碳、氮和氧的任何 NMR 活性同位素的各向同性位移。

AZD5718 的 15N 化学位移分配。

论文一作 Cordova 说:这种方法可以通过简化这些研究的基本第一步之一,来显着加速核磁共振对材料的研究。

论文链接:https://www.science.org/doi/10.1126/sciadv.abk2341

参考内容:https://phys.org/news/2021-11-machine-problem-nmr-spectra-crystals.html

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

登录查看更多
0

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
92+阅读 · 2022年4月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
39+阅读 · 2022年2月28日
Nat. Mach. Intell. | 分子表征的几何深度学习
专知会员服务
24+阅读 · 2021年12月26日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
21+阅读 · 2021年12月4日
专知会员服务
28+阅读 · 2021年8月27日
使用深度学习,通过一个片段修饰进行分子优化
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
AI从底物和酶的结构中预测米氏常数,量化酶活性
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
46+阅读 · 2021年10月4日
Arxiv
14+阅读 · 2020年9月1日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员