项目名称: 基于海量样本的高性能元基因组数据分析策略和方法开发

项目编号: No.31271410

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 生物科学

项目作者: 宁康

作者单位: 华中科技大学

项目金额: 80万元

中文摘要: 基于新一代DNA测序技术的元基因组方法是认识微生物群落结构和功能的最重要手段之一。但是,首先,目前元基因组数据量呈爆炸式上升趋势;其次,元基因组数据在类型、来源、质量上十分复杂;最后,基于元基因组数据的不同科学问题,对其分析方法提出了广谱性、多功能与高速度等挑战。这些挑战和困难的存在,导致目前对于元基因组数据解析仍处于经验化阶段,缺乏系统、可靠、可参照的分析方法。针对该瓶颈,本项目通过选择海量元基因组样本,系统考察群落的数据类型(16S rRNA等进化标记或全基因组测序)、序列类型(454或Solexa)以及测序深度等若干因素对基于元基因组数据的不同科学问题分析策略的影响。进而运用数据挖掘等方法,总结上述因素影响机制的共性、特性和互相影响,提出具一定参照意义、代表性与通用性的技术参数矩阵。最终开发通用的元基因组数据分析方法,并建立相关分析策略参数和支撑数据的数据库,服务于元基因组研究。

中文关键词: 元基因组;海量样本;高性能分析;物种和功能结构;功能注释

英文摘要: Metagenome based on next-generation DNA sequencing technology is one of the most important means of understanding the structure and function of microbial community. However, firstly, the amount of metagenomic samples was increasing rapidly; secondly, metagenomic datasets have different type, source and quality; thirdly, different biological questions need the analysis method to be multi-fucntional, high-speed and adaptive to different data. As such, current metagenomics data analysis is still dependent on human experience, and there is urgent needs for systematic, reliable and standard metagenomic data analytical method. To trackle this bottleneck, this study would select a large number of metagenomic samples, and systematically investigate the effect of varies factors that could affect the analysis strategy and results for metagenomic data analysis, such as the complexity structure (taxonomy and function), data type (evolutionary marker such as 16S rRNA, or whole genome sequencing), sequence type (454 or Solexa) and sequencing depth, etc. Then by using data mining methods, we will summarize the effect of the above factors on the results of metagenomic data analysis, and propose a biologically meaningful and representative parameter matrix that could be applied on different metagenomic data analysis. Finally

英文关键词: Metagenomics;Large-scale samples;High-performance analysis;Taxonomical and functional structure;Functional annotation

成为VIP会员查看完整内容
0

相关内容

基于深度神经网络的图像缺损修复方法综述
专知会员服务
25+阅读 · 2021年12月18日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
133+阅读 · 2021年9月20日
专知会员服务
15+阅读 · 2021年8月6日
专知会员服务
121+阅读 · 2021年4月29日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
专知会员服务
48+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年8月20日
基于深度学习的表面缺陷检测方法综述
专知会员服务
85+阅读 · 2020年5月31日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
LinkedIn数据分析技术栈的演进之路
AI前线
0+阅读 · 2022年2月19日
从案例讲起,说说产品策略的4种方法
人人都是产品经理
0+阅读 · 2021年12月19日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
13+阅读 · 2019年1月26日
小贴士
相关主题
相关VIP内容
基于深度神经网络的图像缺损修复方法综述
专知会员服务
25+阅读 · 2021年12月18日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
133+阅读 · 2021年9月20日
专知会员服务
15+阅读 · 2021年8月6日
专知会员服务
121+阅读 · 2021年4月29日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
专知会员服务
48+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年8月20日
基于深度学习的表面缺陷检测方法综述
专知会员服务
85+阅读 · 2020年5月31日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
相关资讯
LinkedIn数据分析技术栈的演进之路
AI前线
0+阅读 · 2022年2月19日
从案例讲起,说说产品策略的4种方法
人人都是产品经理
0+阅读 · 2021年12月19日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员