近日,来自韩国延世大学融合生物技术与转化医学学院的卢敬泰(NO Kyoung Tai)教授指导的在读博士生毛家顺等在Cell旗下全学科新期刊Heliyon (JCR Q1,IF: 3.776)发表了一种用于预测工业领域中常见的用作有机溶剂的单一化合物的介电常数(DC)预测方法,据悉该方法能够仅根据小样本数据即可实现预测准确率达到95.6%的性能,尤其是使用传统方法在DC值介于50-180区间上预测较差的区域上实现了良好的预测性能,该方法不同于传统机器学习的单层分类器训练,而是模拟深度网络进行多层线性和非线性映射,从而有效提升了预测效果,在评估方面采用相关性指标而非传统的回归指标,但是在单层内又采用遗传算法进行单层分类器的自适应定向保留有效的变量和映射器(即将单个分类器看做一个映射器,而无须进行分类器调参),此种结合遗传算法、传统机器学习作为映射器、相关性指数作为预测目标的方法框架,即可解决在任何小样本数据集上实现可解释与高预测性能的平衡,为了提高模型的解释性,每一层均可查看是哪些变量提升了预测精度,以及最终通过最小生成树实现关键变量的最佳组合可视化,又反过来为我们在科学研究上寻找关键的一次、二次等非线性变量的构建上给与启发。最后,本文的思想方法的来源实际上是借鉴了kaggle中经常使用的stacking的思想,并且结合遗传算法来加速发现变量有效组合,使用DBSCAN来合并线性相关性强的变量,以减少变量的爆炸组合数。
介电常数(DC,ε)是材料科学中的一个基本参数,用来测量系统的极化性。在工业生产过程中,它的值是一个重要的指标,它显示了材料的介电性能,并汇编了包括分离信息、化学平衡、化学反应性分析和溶解性建模等信息。由于现有的ε预测模型比较原始,特别是在处理强极性化合物时经常出现严重的故障。因此,我们开发了一种新型的数据驱动系统,以提高ε在材料科学中的应用效率和广泛的适用性。这一创新方案采用了相关距离和遗传算法对特征组合进行判别,避免了过拟合。其中,通过模拟深度学习中的逐层提取,将单个ML模型的预测输出作为编码来估计目标值,并实现了对特征最优组合的即时搜索。与之前最好的传统ML结果0.877相比,我们的模型与目标建立了0.956的相关值。我们的框架建立了一个深刻的改进,特别是对于拥有ε值>50的材料系统。在可解释性方面,我们从最小生成树中导出了一个概念性的计算方程。我们创新的数据驱动系统优于其他方法,因为它适用于预测介电常数,以及预测任何多成分复合体的整体微观和宏观特性。
据悉,毛家顺现为延世大学融合生物技术与转化医学学院的在读博士生,主要研究方向为结合深度生成模型进行候选药物的开发,并擅长分子动力学、QSAR(PR),FMO,Deep learning与药物化学,生物信息学的结合,目前已经在包括iscience, brief in bioinformatics, heliyon, Computational and Structural Biotechnology Journal 等期刊发表数篇一作论文。
训练和预测数据集链接
http://www.rsc.org/suppdata/c9/cp/c9cp01704f/c9cp01704f3.xlsx
文章链接