项目名称: 可扩展的蛋白质组学大数据存储与分析模型研究

项目编号: No.61501071

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 无线电电子学、电信技术

项目作者: 白明泽

作者单位: 重庆邮电大学

项目金额: 19万元

中文摘要: 随着高通量质谱测序的快速发展,蛋白质组学数据量迅速增加、数据格式多样化,呈现出明显的大数据特征;刚启动的“中国人类蛋白质组计划”也即将产生对中国生物、医学界影响深刻的大数据,迫切需要高效的生物知识发现平台解读数据。因此研究蛋白质组学数据基于大数据思想的存储和分析模型具有重要的理论意义和广泛的应用前景。本项目旨在研究可扩展的面向蛋白质组学大数据的存储、管理和分析模型: (1).研究蛋白质组学的数据特征以及具备数据集和功能可扩展性的“概念层-逻辑抽象层-物理层”分层数据模型;(2).研究多数据源汇集整合的“抽取-转换-导入”(ETL)流程;(3). 研究基于大数据存储模型的核心分析算法——高效序列搜索算法。通过以上研究,为蛋白质组组学提供有效的大数据管理和分析机制,推动我国生物和信息产业的进一步发展。

中文关键词: 蛋白质组学数据;大数据;存储模型;序列搜索算法;ETL

英文摘要: With the rapid development of high throughput mass spectrometry, the volume of Proteomics data increases sharply and the formats of data varies broadly. These facts indicate that the Proteomics data already becomes Big Data. The recently started up “China Human Proteome Project” will produce a whole lot of data which could influence Chinese biology and medical science significantly. The Proteomics data based high performance biology knowledge discovery platforms are needed eagerly, therefore investigating Big Data storage and analysis models for Proteomics data has high research significance and broad application prospect. This proposal plans to study on the scalable Big Data storage, management, and analysis models of Proteomics data: (1). Study on the data characteristics of Proteomics data and the “Concept layer, Logic Abstract layer and Physics layers” multilayers data storage model which is scalable on data volume and function; (2). Study on the “Extraction, Transformation and Loading (ETL)” process to integrate various Proteomics data sources. (3). Study on the high performance sequence search algorithm in peptide and protein identification and quantification, which is a kernel analysis algorithm. Through the above studies, the effective Proteomics Big Data management and analysis mechanics can be established, so as to promote the further development of China’s biological and information industries.

英文关键词: Proteomics Data;Big Data;Storage Model;Sequence Search Algorithm;ETL

成为VIP会员查看完整内容
1

相关内容

《信息安全技术 云计算服务安全指南》国家标准意见稿
专知会员服务
29+阅读 · 2022年4月14日
《金融大数据术语》行业标准,24页pdf
专知会员服务
53+阅读 · 2022年2月28日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
【干货书】健康和生命科学的数据文本处理,107页pdf
专知会员服务
41+阅读 · 2021年7月11日
专知会员服务
49+阅读 · 2021年3月28日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
151+阅读 · 2021年2月25日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
面面观之易华录“数据银行”
THU数据派
0+阅读 · 2021年9月10日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
19+阅读 · 2019年11月23日
小贴士
相关VIP内容
《信息安全技术 云计算服务安全指南》国家标准意见稿
专知会员服务
29+阅读 · 2022年4月14日
《金融大数据术语》行业标准,24页pdf
专知会员服务
53+阅读 · 2022年2月28日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
【干货书】健康和生命科学的数据文本处理,107页pdf
专知会员服务
41+阅读 · 2021年7月11日
专知会员服务
49+阅读 · 2021年3月28日
知识图谱在智能制造领域的研究现状及其应用前景综述
专知会员服务
151+阅读 · 2021年2月25日
大数据安全技术研究进展
专知会员服务
90+阅读 · 2020年5月2日
相关资讯
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
面面观之易华录“数据银行”
THU数据派
0+阅读 · 2021年9月10日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员