分子科学是化学的核心, 也是生物、材料、药学等学科的基础. 传统的分子科学研究通过实验或理论手段 进行, 研究成本高、周期长, 难以处理高复杂度体系. 随着大数据时代的到来, 数据驱动的人工智能研究已成为继 实验、理论和模拟之后的第4种科学研究范式. 数据驱动的机器学习凭借其快速高效的数据处理能力, 在分子科学 领域展现出巨大的发展潜力. 尤其是在分子性质预测、分子设计、化学反应预测及逆合成、量子化学计算、自动 化合成等领域获得了广泛应用. 本文首先介绍面向分子科学数据智能研究过程中的3个关键部分, 即分子科学开放 数据集、分子描述符和机器学习算法; 然后, 列举机器学习在不同分子科学研究方向中的重要应用案例; 最后, 分 析讨论该研究领域可能存在的挑战及潜在发展方向.

分子科学主要研究分子的结构、性质以及分子间 的相互作用, 是化学、生物、材料、药学等学科的重 要基础. 传统的实验研究手段无法对所有分子的性质 及反应过程进行逐一探究. 薛定谔方程的提出为分子 科学构建了清晰的结构-性质关系底层逻辑, 对于给定 的化学结构, 通过求解薛定谔方程, 理论上可以准确描 述电子的分布和广泛的物理响应. 但是薛定谔方程的 直接求解极为复杂且计算量巨大, 这对复杂体系来说, 几乎不可能. 20世纪60年代, 随着Gaussian等基于量子 力学求解薛定谔方程软件的出现[1], 降低了量子化学计 算的门槛, 使得理论研究手段被广泛使用, 极大促进了 分子科学领域的发展. 进入21世纪以来, 计算化学展现 出更好的预见性, 其应用范围也更加广泛, 在结构化 学、药物化学和材料科学领域扮演越来越重要的角色, 高通量计算筛选也成为常见的研究手段. 然而, 计算化 学的瓶颈本质上是计算能力和资源的不足, 现代很多 理论方法依赖于各种近似来大幅度降低计算量, 但计 算结果与真实体系的差距不得而知.

随着大数据时代的到来, 大规模云计算机并行计 算能力和存储能力显著提升, 高通量数据不断积累, 人 工智能技术日趋成熟, 数据驱动的人工智能研究已成 为继实验、理论和模拟之后的第4种科学研究范式. 近 年来, 深度学习[2]——一种以神经网络为架构对数据进 行表征学习的机器学习算法, 在计算机视觉、语音识 别、自然语言处理与生物信息学等重要领域取得了惊 人的进展[3~11]. 基于深度学习技术开发的人工智能围棋 程序AlphaGo[12]和AlphaGo Zero的出现, 证实了机器学 习方法可以快速处理规则清晰、数据高度复杂科学问 题的可行性. 这种技术适用于处理涉及大量空间组合 或非线性过程的复杂问题, 这些问题或不能通过传统方法求解, 或只能牺牲巨大的计算成本进行求解. 在分 子科学领域, 底层构效关系(元素周期表、物理常数、 薛定谔方程)相对清晰且稳定, 但由于其原子和分子的 组合自由度大、从微观量子态到化学性质的演化复杂 度高, 使得该构效关系扑朔迷离. 这意味着通过数据驱 动的人工智能机器学习手段开展分子科学研究具有很 高的可行性. 机器学习在分子科学领域的应用可以追溯到20世 纪70年代, Hiller等人[13]使用三层感知机成功将一系列 烷基取代和醇烷基取代的1,3-二恶烷按药理活性或非 活性进行分类. 20世纪90年代, 神经网络在计算机辅助 药物设计中广泛使用, 特别是在定量结构-活性关系 (quantitative structure-activity relationship, QSAR)研究 中. 随着近些年化学信息学的发展, 机器学习在分子性 质预测、分子设计、化学反应预测与逆合成、量子化 学以及自动化合成等领域均有重要应用. 理解如何使用机器学习方法解决特定的分子科学 问题, 需要介绍其中涉及的机制. 一个标准的机器学习 工作流通常包括以下步骤: (1) 数据集构建, 包括数据 获取、清理和预处理; (2) 分子描述符选取; (3) 模型建 立(训练、验证和测试). 本文简要介绍这几个步骤及一 些面向分子科学的数据智能研究案例, 并提出现有研 究中可能存在的挑战与机遇.

成为VIP会员查看完整内容
28

相关内容

【干货书】机器学习—工程师和科学家的第一课,348页pdf
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
88+阅读 · 2022年12月12日
【硬核书】数据科学,282页pdf
专知会员服务
91+阅读 · 2022年11月29日
【Jon Paul Janet】机器学习化学应用,153页ppt
专知会员服务
45+阅读 · 2021年12月5日
专知会员服务
187+阅读 · 2021年2月4日
【Haute-Alsace博士论文】深度学习时序分类,175页pdf
专知会员服务
99+阅读 · 2020年10月4日
【KDD2020】图深度学习:基础、进展与应用,182页ppt
专知会员服务
135+阅读 · 2020年8月30日
专知会员服务
108+阅读 · 2020年8月28日
【硬核书】数据科学,282页pdf
专知
23+阅读 · 2022年11月29日
【2022新书】生命科学的数据分析,511页pdf
专知
13+阅读 · 2022年11月15日
【KDD2020】图神经网络:基础与应用,322页ppt
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
【干货书】机器学习—工程师和科学家的第一课,348页pdf
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
88+阅读 · 2022年12月12日
【硬核书】数据科学,282页pdf
专知会员服务
91+阅读 · 2022年11月29日
【Jon Paul Janet】机器学习化学应用,153页ppt
专知会员服务
45+阅读 · 2021年12月5日
专知会员服务
187+阅读 · 2021年2月4日
【Haute-Alsace博士论文】深度学习时序分类,175页pdf
专知会员服务
99+阅读 · 2020年10月4日
【KDD2020】图深度学习:基础、进展与应用,182页ppt
专知会员服务
135+阅读 · 2020年8月30日
专知会员服务
108+阅读 · 2020年8月28日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员