项目名称: 基于元基因组相似度计算的海量微生物群落数据挖掘

项目编号: No.61303161

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 苏晓泉

作者单位: 中国科学院青岛生物能源与过程研究所

项目金额: 23万元

中文摘要: 元基因组学是分析微生物群落结构和功能的最重要手段之一。高通量测序技术的发展以及群落样本的指数级增加,产生了海量的元基因组数据。由于目前研究中缺乏微生物群落之间高效的比较与分析方法,对元基因组数据利用率低,无法从海量的数据中获取宝贵的生物学信息。本项目基于元基因组数据的相似度对海量微生物群落的结构信息进行数据挖掘,同时结合相应群落的采样环境信息,从而发现导致微生物群落结构差异的主要环境因素。微生物群落之间的相似度由计算元基因组数据加权二叉进化树的相似性来获得,并采用GPGPU CUDA架构并行化计算海量微生物群落的相似度矩阵。通过相似度矩阵中不同样本的环境条件差异性分析,自然聚类分析,以及聚类结果与环境条件的相关性分析等数据挖掘方法,量化地计算环境条件对微生物群落结构造成的影响。本项目同时也为元基因组的大数据分析提供基础方法和经验。

中文关键词: 微生物群落;元基因组;高性能计算;数据挖掘;微生物组

英文摘要: Metagenomic method is one of the most important methods to analysis the structure and function of microbial communities. The development of the NGS technology and the exponentially increasing number of microbial community samples produced massive metagenomic data. Limited by the lack of efficient analysis and comparison methods among microbial communities and low utitlize rate of metagenomic data,currently we cannot obtain valuable biological information from the massive data.This project aims to find the principal environmental factors which lead to the structural difference of microbial communities, by data mining methods based on the metagenomic similarity computing and the environmental information. The similarity between microbial communities is generated by the similarity computation of the weighted binary phylogenetic tree of metagenomic data, and then GPGPU CUDA architecture is implemented for parallel computing of the similarity value matrix of massive microbial community samples. By environmental difference and clustering analysis of the similarity value matrix, and correlation analysis between the clustering analysis results and the environmental factors, we can quantitively compute the diversity among the microbial communities occurred by environmental factors, and then realize the environmental fact

英文关键词: Microbial community;Metagenome;High performance computing;Data mining;Microbiome

成为VIP会员查看完整内容
0

相关内容

ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
34+阅读 · 2021年11月30日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
135+阅读 · 2021年9月20日
专知会员服务
29+阅读 · 2021年8月27日
元学习-生物医学中连接标记和未标记数据
专知会员服务
30+阅读 · 2021年8月3日
专知会员服务
29+阅读 · 2021年2月17日
异质图嵌入综述: 方法、技术、应用和资源
专知会员服务
48+阅读 · 2020年12月13日
专知会员服务
46+阅读 · 2020年10月22日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
图预训练技术在生物计算领域的应用
GenomicAI
0+阅读 · 2022年2月23日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
15+阅读 · 2021年2月19日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
13+阅读 · 2019年1月26日
Arxiv
11+阅读 · 2018年4月25日
小贴士
相关VIP内容
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
34+阅读 · 2021年11月30日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
135+阅读 · 2021年9月20日
专知会员服务
29+阅读 · 2021年8月27日
元学习-生物医学中连接标记和未标记数据
专知会员服务
30+阅读 · 2021年8月3日
专知会员服务
29+阅读 · 2021年2月17日
异质图嵌入综述: 方法、技术、应用和资源
专知会员服务
48+阅读 · 2020年12月13日
专知会员服务
46+阅读 · 2020年10月22日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
相关资讯
图预训练技术在生物计算领域的应用
GenomicAI
0+阅读 · 2022年2月23日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员