近日,来自韩国延世大学融合生物技术与转化医学学院的卢敬泰(NO Kyoung Tai)教授指导的在读博士生毛家顺等在Cell旗下全学科新期刊Heliyon (JCR Q1,IF: 3.776)发表了一种用于预测工业领域中常见的用作有机溶剂的单一化合物的介电常数(DC)预测方法,据悉该方法能够仅根据小样本数据即可实现预测准确率达到95.6%的性能,尤其是使用传统方法在DC值介于50-180区间上预测较差的区域上实现了良好的预测性能,该方法不同于传统机器学习的单层分类器训练,而是模拟深度网络进行多层线性和非线性映射,从而有效提升了预测效果,在评估方面采用相关性指标而非传统的回归指标,但是在单层内又采用遗传算法进行单层分类器的自适应定向保留有效的变量和映射器(即将单个分类器看做一个映射器,而无须进行分类器调参),此种结合遗传算法、传统机器学习作为映射器、相关性指数作为预测目标的方法框架,即可解决在任何小样本数据集上实现可解释与高预测性能的平衡,为了提高模型的解释性,每一层均可查看是哪些变量提升了预测精度,以及最终通过最小生成树实现关键变量的最佳组合可视化,又反过来为我们在科学研究上寻找关键的一次、二次等非线性变量的构建上给与启发。最后,本文的思想方法的来源实际上是借鉴了kaggle中经常使用的stacking的思想,并且结合遗传算法来加速发现变量有效组合,使用DBSCAN来合并线性相关性强的变量,以减少变量的爆炸组合数。

介电常数(DC,ε)是材料科学中的一个基本参数,用来测量系统的极化性。在工业生产过程中,它的值是一个重要的指标,它显示了材料的介电性能,并汇编了包括分离信息、化学平衡、化学反应性分析和溶解性建模等信息。由于现有的ε预测模型比较原始,特别是在处理强极性化合物时经常出现严重的故障。因此,我们开发了一种新型的数据驱动系统,以提高ε在材料科学中的应用效率和广泛的适用性。这一创新方案采用了相关距离和遗传算法对特征组合进行判别,避免了过拟合。其中,通过模拟深度学习中的逐层提取,将单个ML模型的预测输出作为编码来估计目标值,并实现了对特征最优组合的即时搜索。与之前最好的传统ML结果0.877相比,我们的模型与目标建立了0.956的相关值。我们的框架建立了一个深刻的改进,特别是对于拥有ε值>50的材料系统。在可解释性方面,我们从最小生成树中导出了一个概念性的计算方程。我们创新的数据驱动系统优于其他方法,因为它适用于预测介电常数,以及预测任何多成分复合体的整体微观和宏观特性。

据悉,毛家顺现为延世大学融合生物技术与转化医学学院的在读博士生,主要研究方向为结合深度生成模型进行候选药物的开发,并擅长分子动力学、QSAR(PR),FMO,Deep learning与药物化学,生物信息学的结合,目前已经在包括iscience, brief in bioinformatics, heliyon, Computational and Structural Biotechnology Journal 等期刊发表数篇一作论文。

训练和预测数据集链接

http://www.rsc.org/suppdata/c9/cp/c9cp01704f/c9cp01704f3.xlsx

文章链接

https://doi.org/10.1016/j.heliyon.2022.e10011

成为VIP会员查看完整内容
8

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
MOG:利用能量模型生成数据集分布外的分子
专知会员服务
8+阅读 · 2022年7月16日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
66+阅读 · 2020年4月7日
监督和半监督学习下的多标签分类综述
专知
0+阅读 · 2022年8月3日
KDD 2022 | 基于分层图扩散学习的癫痫波预测
PaperWeekly
1+阅读 · 2022年6月26日
数据科学中的 10 个重要概念和图表的含义
大数据文摘
2+阅读 · 2022年6月1日
为什么深度学习是非参数的?
THU数据派
1+阅读 · 2022年3月29日
人工智能,“抛弃”真实数据集?
学术头条
1+阅读 · 2022年3月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年10月3日
Arxiv
0+阅读 · 2022年10月1日
VIP会员
相关VIP内容
MOG:利用能量模型生成数据集分布外的分子
专知会员服务
8+阅读 · 2022年7月16日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
66+阅读 · 2020年4月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员