This study presents a large-scale predictive modeling framework for logP prediction using 426850 bioactive compounds rigorously curated from the intersection of three authoritative chemical databases: PubChem, ChEMBL, and eMolecules. We developed a novel computational infrastructure to address the data integration challenge, reducing processing time from a projected over 100 days to 3.2 hours through byte-offset indexing architecture, a 740-fold improvement. Our comprehensive analysis revealed critical insights into the multivariate nature of lipophilicity: while molecular weight exhibited weak bivariate correlation with logP, SHAP analysis on ensemble models identified it as the single most important predictor globally. We systematically evaluated multiple modeling approaches, discovering that linear models suffered from inherent heteroskedasticity that classical remediation strategies, including weighted least squares and Box-Cox transformation, failed to address. Tree-based ensemble methods, including Random Forest and XGBoost, proved inherently robust to this violation, achieving an R-squared of 0.765 and RMSE of 0.731 logP units on the test set. Furthermore, a stratified modeling strategy, employing specialized models for drug-like molecules (91 percent of dataset) and extreme cases (nine percent), achieved optimal performance: an RMSE of 0.838 for the drug-like subset and an R-squared of 0.767 for extreme molecules, the highest of all evaluated approaches. These findings provide actionable guidance for molecular design, establish robust baselines for lipophilicity prediction using only 2D descriptors, and demonstrate that well-curated, descriptor-based ensemble models remain competitive with state-of-the-art graph neural network architectures.


翻译:本研究提出了一个用于logP预测的大规模预测建模框架,该框架使用了从三个权威化学数据库(PubChem、ChEMBL和eMolecules)的交集中严格筛选出的426850个生物活性化合物。我们开发了一种新颖的计算基础设施以应对数据集成挑战,通过字节偏移索引架构将处理时间从预计的超过100天减少到3.2小时,实现了740倍的改进。我们的综合分析揭示了亲脂性多变量性质的关键见解:虽然分子量与logP的双变量相关性较弱,但基于集成模型的SHAP分析将其识别为全局最重要的单一预测因子。我们系统地评估了多种建模方法,发现线性模型存在固有的异方差性,而包括加权最小二乘法和Box-Cox变换在内的经典补救策略均无法解决此问题。基于树的集成方法(包括随机森林和XGBoost)被证明对此类违反具有固有的鲁棒性,在测试集上实现了0.765的R平方和0.731 logP单位的RMSE。此外,一种分层建模策略——为类药分子(占数据集的91%)和极端情况(占9%)采用专门的模型——实现了最佳性能:类药子集的RMSE为0.838,极端分子的R平方为0.767,在所有评估方法中最高。这些发现为分子设计提供了可行的指导,为仅使用2D描述符进行亲脂性预测建立了稳健的基线,并证明了精心筛选的、基于描述符的集成模型仍然与最先进的图神经网络架构具有竞争力。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员