今天给大家介绍由河南农业大学陈震教授、中国农业科学院棉花所杨作仁研究员、美国弗吉尼亚联邦大学Lukasz Kurgan教授和澳大利亚蒙纳士大学宋江宁教授等团队合作于2022年7月份发表在生物学顶级期刊Nucleic Acids Research上的一个开源的生物分子序列和结构等特征提取工具,iFeatureOmega。该工具可对多种生物分子类型数据进行特征提取,分析并进行可视化展示。这些数据包括序列数据(DNA,RNA和蛋白质序列)、蛋白质结构数据和小分子结构数据。河南农业大学陈震教授、荷兰莱顿大学刘许晗博士、中国农业科学院棉花所赵佩副研究员和蒙纳士大学李晨博士为并列第一作者。该工具在目前所有主流系统包括Windows, MacOS和Linux系统下进行了软件测试运行。iFeatureOmega包含了服务器(Webserver)版本, 图形用户界面(GUI)版本,以及命令行(CLI)版本,来满足不同计算背景下的用户使用需求。文章通过使用iFeatureOmega对蛋白质锌离子结合位点的结构微环境特征作为运行实例充分展示和论证了该工具的强大功能。

介绍

在过去的几十年里,高通量测序技术的显著进步和广泛应用,产生了前所未有的海量分子数据。如何有效、快速地对这些数据进行注释、分析、挖掘和可视化已成为一项重要的研究课题。随着机器学习方法在解决生物学问题中的广泛应用,越来越多的团队选择使用基于机器学习的法方法对生物序列进行精准预测和分析。在这个过程中,对分子数据的特征提取、计算、分析以及可视化是非常重要的一环。根据研究任务的不同,特征提取方法多种多样。因此,为了方便研究人员对分子数据进行特征提取,我们开发了一个综合的能够对多种分子类型包括序列数据(DNA、RNA和蛋白质序列)、蛋白质结构数据和小分子结构数据等多种数据进行特征提取、分析和可视化的工具,并命名为iFeatureOmega。iFeatureOmega包含Webserver、GUI和CLI三个版本,以满足不同用户的分析需求。与其他相关工具比较iFeatureOmega具有以下几方面的有点:

现有大部分工具通常只能针对一种或少数几种分子数据类型进行特征提取。 与同类工具相比较,iFeatureOmega支持最多数量的分子数据类型和特征描述符提取方法; 1. 除了我们之前所开发的iFeature之外,大部分现有工具都不支持对特征提取结果的分析。 为了解决这个问题,iFeatureOmega支持15种聚类、降维和特征标准化算法; 1. iFeatureOmega提供了丰富的、可交互的数据和结果的图形展示方式; 1. iFeatureOmega同时提供三个版本,以满足不同用户的分析需求。

iFeatureOmega架构设计

iFeatureOmega集成了170多种特征提取方法,可以对DNA、RNA和Protein等序列数据,Protein structure数据和小分子(Ligand)结构数据进行特征提取,分析和可视化。特征分析算法包含10种聚类算法、3种降维算法和2种数据标准化方法。图形化展示方面支持9种可交互的数据展示方法,包括柱状图、概率密度图、热图、箱线图、散点图、圈图、蛋白质结构和小分析结构展示图。

与其他工具的比较

下表展示了iFeatureOmega与现有工具在支持的分子数据类型、特征分析、数据可视化展示和工具的易用性等方面进行的比较:

GUI版本的图形化展示

图1. iFeatureOmega-GUI的图形展示示例

Webserver的图形化展示

图2. iFeatureOmega-Web的图形展示示例 iFeatureOmega使用与安装

iFeatureOmega的服务器版本可通过https://ifeatureomega.erc.monash.edu/ 进行在线访问。本地版本的安装也十分方便。用户既可以通过pip命令方便的安装,其源码也可以通过https://github.com/Superzchen/iFeatureOmega-GUI (GUI版本),https://github.com/Superzchen/iFeatureOmega-CLI(CLI版本)链接进行下载。 参考资料 Zhen Chen et al., iFeatureOmega: an integrative platform for engineering, visualization and analysis of features from molecular sequences, structural and ligand data sets, Nucleic Acids Research, 2022,50(W1): W434–W447.

https://doi.org/10.1093/nar/gkac351

Zhen Chen et al., iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization. Nucleic Acids Research , 2021,49(10): e60. https://doi.org/10.1093/nar/gkab122

Zhen Chen et al., iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data. Briefings in Bioinformatics, 2020, 21(3): 1047–1057. https://doi.org/10.1093/bib/bbz041

Zhen Chen et al., iFeature: a Python package and web server for features extraction and selection from protein and peptide sequences. Bioinformatics, 2018, 34(14): 2499–2502. https://doi.org/10.1093/bioinformatics/bty140

成为VIP会员查看完整内容
17

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
使用深度学习进行生物网络分析
专知会员服务
16+阅读 · 2022年6月30日
Nat Methods|ColabFold:让所有人都能进行蛋白质折叠
专知会员服务
6+阅读 · 2022年6月27日
Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法
专知会员服务
3+阅读 · 2022年6月22日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
On Designing Data Models for Energy Feature Stores
Arxiv
0+阅读 · 2022年9月9日
Arxiv
0+阅读 · 2022年9月8日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员