项目名称: 与RNA、DNA及蛋白质绑定的固有无序片段的分析及预测

项目编号: No.11501407

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 数理科学和化学

项目作者: 彭珍玲

作者单位: 天津大学

项目金额: 18万元

中文摘要: 固有无序蛋白质在自然状态下缺乏稳定的空间结构,却仍在细胞中执行生物学功能。它们在物种中普遍存在,并在细胞中参与信号传导及调控等重要功能。研究发现它们的这些功能常通过其中的固有无序片段与RNA、DNA及蛋白质的互作用来实现。然而现代实验技术难以探测固有无序片段及其功能。另一方面,目前关于蛋白质与RNA、DNA及其他蛋白质的结合位点的预测工作仅关注了具有稳定结构的蛋白质,却忽视了固有无序蛋白质。鉴于上述事实,本项目致力于解决与RNA、DNA及蛋白质绑定的固有无序片段的预测问题。首先,通过系统分析这三类固有无序片段的序列信息,探究其不同于一般氨基酸片段的序列特征;并根据获取这些特征的速度,将其分为简单和复杂两类。其次,利用这两类特征,分别开发快速的及精确的基于机器学习的计算方法,用于这三类固有无序片段的预测。最后,在蛋白质组上应用这些计算方法,并建立针对固有无序片段的这三种功能的数据库。

中文关键词: 固有无序蛋白质;固有无序片段;机器学习;功能预测;特征提取

英文摘要: Intrinsically disordered proteins lack stable 3D structure, but still perform biological functions in vivo. They are very common in nature and play a variety of functions including cell signaling and regulation. Previous studies suggested that they participate in these functions via the interaction between their intrinsically disordered segments and other molecules, including RNA, DNA, and proteins. However, it is very difficult to detect intrinsically disordered segments, let alone their functions, by experiments. On the other hand, lots of efforts were put into the prediction of binding sites between proteins and RNA, DNA and other proteins. But these studies are limited to the proteins with stable 3D structure, instead of the intrinsically disordered proteins. Therefore, we are motivated to find a way to detect the potential disordered segments that bind to RNA, DNA and proteins. Specifically, we systematically analyze the disordered segments with the three binding events, and extract the sequence features which can distinguish them from other segments. Based on the speed to obtain these features, we divide them into the easy one and the complicated one. Using these two types of features, we develop the machine learning-based computational methods, which focus on the prediction speed (i.e., fast prediction) and prediction quality (i.e., accurate prediction), respectively. These methods provide a vital and highthroughput way to predict the intrinsically disordered segments that interact with RNA, DNA and proteins. Finally, we apply these methods at the proteomic level to build a database for these three binding events mediated by intrinsic disorder.

英文关键词: Intrinsically disordered protein;Intrinsically disordered segment;Machine learning;Function prediction;Feature extraction

成为VIP会员查看完整内容
2

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
14+阅读 · 2022年3月18日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
21+阅读 · 2021年12月4日
专知会员服务
85+阅读 · 2021年10月11日
专知会员服务
67+阅读 · 2021年9月10日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
166+阅读 · 2019年12月4日
靶向蛋白质降解的蛋白-蛋白相互作用预测
GenomicAI
4+阅读 · 2022年3月5日
人工智能预测RNA和DNA结合位点,以加速药物发现
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
49+阅读 · 2020年12月16日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2020年2月5日
小贴士
相关VIP内容
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
14+阅读 · 2022年3月18日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
21+阅读 · 2021年12月4日
专知会员服务
85+阅读 · 2021年10月11日
专知会员服务
67+阅读 · 2021年9月10日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
166+阅读 · 2019年12月4日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
微信扫码咨询专知VIP会员