Adapting machine learning algorithms to better handle clustering or batch effects within training data sets is important across a wide variety of biological applications. This article considers the effect of ensembling Random Forest learners trained on clusters within a single data set with heterogeneity in the distribution of the features. We find that constructing ensembles of forests trained on clusters determined by algorithms such as k-means results in significant improvements in accuracy and generalizability over the traditional Random Forest algorithm. We denote our novel approach as the Cross-Cluster Weighted Forest, and examine its robustness to various data-generating scenarios and outcome models. Furthermore, we explore the influence of the data-partitioning and ensemble weighting strategies the benefits of our method over the existing paradigm. Finally, we apply our approach to cancer molecular profiling and gene expression data sets that are naturally divisible into clusters and illustrate that our approach outperforms classic Random Forest. Code and supplementary material are available at https://github.com/m-ramchandran/cross-cluster.


翻译:在培训数据集内调整机器学习算法以更好地处理集群或批量效应,对于各种各样的生物应用非常重要。本条款考虑了将随机森林学员在集群上受训的集合纳入单一数据集的影响,在特征分布上各异。我们发现,根据k- means等算法确定的集群建立经过培训的森林群群,可以大大改进传统随机森林算法的准确性和普遍性。我们用跨集群森林的标志来表示我们的新颖方法,并审查它是否牢固地适应了各种数据生成的设想和结果模型。此外,我们探索了数据分割和组合加权战略的影响,我们的方法对现有模式的好处。最后,我们运用了我们的方法,将自然可变异到集群的癌症分子剖析和基因表达数据集,说明我们的方法超越了典型随机森林。我们的方法和补充材料见http://github.com/m-chandran/croscrosty- groupram。

0
下载
关闭预览

相关内容

【经典书】凸优化:算法与复杂度,130页pdf
专知会员服务
80+阅读 · 2021年11月16日
专知会员服务
18+阅读 · 2021年6月29日
专知会员服务
79+阅读 · 2021年5月4日
【经典书】机器学习导论,234页pdf
专知会员服务
74+阅读 · 2021年4月20日
专知会员服务
26+阅读 · 2021年3月7日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
VIP会员
相关VIP内容
【经典书】凸优化:算法与复杂度,130页pdf
专知会员服务
80+阅读 · 2021年11月16日
专知会员服务
18+阅读 · 2021年6月29日
专知会员服务
79+阅读 · 2021年5月4日
【经典书】机器学习导论,234页pdf
专知会员服务
74+阅读 · 2021年4月20日
专知会员服务
26+阅读 · 2021年3月7日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员