The reconstruction of microbial genomes from large metagenomic datasets is a critical procedure for finding uncultivated microbial populations and defining their microbial functional roles. To achieve that, we need to perform metagenomic binning, clustering the assembled contigs into draft genomes. Despite the existing computational tools, most of them neglect one important property of the metagenomic data, that is, the noise. To further improve the metagenomic binning step and reconstruct better metagenomes, we propose a deep Contrastive Learning framework for Metagenome Binning (CLMB), which can efficiently eliminate the disturbance of noise and produce more stable and robust results. Essentially, instead of denoising the data explicitly, we add simulated noise to the training data and force the deep learning model to produce similar and stable representations for both the noise-free data and the distorted data. Consequently, the trained model will be robust to noise and handle it implicitly during usage. CLMB outperforms the previous state-of-the-art binning methods significantly, recovering the most near-complete genomes on almost all the benchmarking datasets (up to 17\% more reconstructed genomes compared to the second-best method). It also improves the performance of bin refinement, reconstructing 8-22 more high-quality genomes and 15-32 more middle-quality genomes than the second-best result. Impressively, in addition to being compatible with the binning refiner, single CLMB even recovers on average 15 more HQ genomes than the refiner of VAMB and Maxbin on the benchmarking datasets. CLMB is open-source and available at https://github.com/zpf0117b/CLMB/.


翻译:从大型美代基因数据集中重建微生物基因组是找到未培养的微生物群并界定其微生物功能作用的关键程序。 为了做到这一点,我们需要进行美代基因宾宁(CLMB)的深度对比学习框架, 从而有效地消除噪音的扰动, 并产生更稳定、 更稳定的结果。 尽管现有计算工具, 大部分它们忽略了美代基因数据的重要属性, 即噪音。 为了进一步改进美代基因组的分期更新步骤, 重建更好的美代基因组, 我们提议为Metagenome Binning(CLMB) 建立一个深度对比学习框架, 它可以有效地消除噪音的干扰, 并产生更稳定、 更稳定的结果。 基本上, 我们把模拟噪音纳入培训数据, 迫使深级学习模型为无噪音数据和扭曲的数据提供类似和稳定的表述。 因此, 受过训练的模型将强大到噪音, 并在使用期间隐含地处理它。 CLMBB 超越了先前的精细精炼方法, 恢复了几乎完全公开的精细基因组, 15级的CMBBB 。 也改进了最新的数据质量。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
57+阅读 · 2020年5月9日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年1月21日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2020年10月21日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2020年8月7日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2022年1月21日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
5+阅读 · 2020年10月21日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2020年8月7日
Top
微信扫码咨询专知VIP会员