《将具有模型可解释性的机器学习应用于基于序列的蛋白质溶解度预测》2022最新24页报告，美国海军研究实验室生物/分子科学与工程中心 - 专知VIP

会员服务 ·

5

AI与医学 · 机器学习 · 蛋白质溶解度预测 ·

2022 年 10 月 21 日

《将具有模型可解释性的机器学习应用于基于序列的蛋白质溶解度预测》2022最新24页报告，美国海军研究实验室生物/分子科学与工程中心

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

蛋白质溶解度的预测对于天然蛋白质的基础研究至关重要，但对于工程或设计的蛋白质的生产和研究也越来越重要，因为工程性能的实验确认取决于生产的能力。因此，对蛋白质溶解度的准确预测是蛋白质工程师广泛寻求的。在这里，我们提出了一种新的方法，使用极端梯度提升（XGBoost）算法，通过各种数据源，包括预测的溶剂/可及性、二级结构等，来预测蛋白质的溶解度。我们的模型使用一个标准的保留测试集实现了高水平的性能，总体准确率为72%，是基于序列的机器学习模型中最高的。关键的是，我们的系统还产生了对预测很重要的特征信息，利用可解释的人工智能来提供局部和全局的解释器。利用这些信息，我们发现某些单肽、二肽和三肽与溶解度密切相关，蛋白质的无序性、相对溶剂可及性和某些二级结构的频率等指标也是如此，这些指标都是来自其他预测模型的。重要的是，在我们的模型的图形用户界面中，我们利用局部解释来帮助告知预测背后的推理，并建议修改。我们的模型的准确性和可解释性应该允许快速预测蛋白质的溶解度，特别是对于没有可靠结构信息的蛋白质和蛋白质家族。这将极大地提高我们通过机器学习指导的方法和其他蛋白质工程策略来实验生产和研究蛋白质的能力。

图2. 数据集和模型开发流程图。来自Rawi等人的序列数据被缩减为15000个训练集，并在测试集中保留了2000个序列。获得了基于结构和序列的特征，包括NetSurfP-2.0和各种R软件包的输出。XGBoost、RF和Naïve Bayes模型在汇编的数据集上进行了训练，在整个训练过程中通过交叉验证确定了准确性，最后在保留的（n=2000）Chang等人的测试集上进行了评估。

成为VIP会员查看完整内容

12

相关内容

AI与医学

医学领域的人工智能是使用机器学习模型搜索医疗数据，发现洞察，从而帮助改善健康状况和患者体验。得益于近年来计算机科学和信息技术的发展，人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知会员服务

120+阅读 · 2022年11月24日

美国陆军《机器学习方法对红外视频数据的适用性》27页技术报告

美国陆军《机器学习方法对红外视频数据的适用性》27页技术报告

专知会员服务

68+阅读 · 2022年7月7日

美国海军《使用机器学习和可穿戴技术进行疲劳检测/预测》

美国海军《使用机器学习和可穿戴技术进行疲劳检测/预测》

专知会员服务

48+阅读 · 2022年7月3日

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

专知会员服务

19+阅读 · 2022年5月1日

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

专知会员服务

59+阅读 · 2022年4月27日

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

美国空军研究实验室《探索深度学习系统的脆弱性和稳健性》2022年最新85页技术报告

美国空军研究实验室《探索深度学习系统的脆弱性和稳健性》2022年最新85页技术报告

专知

9+阅读 · 2022年7月6日

许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

机器之心

0+阅读 · 2022年4月24日

谷歌AI一次注释了10%的已知蛋白质序列，超过人类十年研究成果

谷歌AI一次注释了10%的已知蛋白质序列，超过人类十年研究成果

机器之心

0+阅读 · 2022年2月22日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

大规模保留指数集辅助质谱分子识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

应用机器学习方法预测和分析蛋白质的结构柔性

国家自然科学基金

4+阅读 · 2010年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于元胞自动机图的蛋白质序列离散灰色模型及其在药物设计中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

Conditional Neural Processes for Molecules

Arxiv

0+阅读 · 2022年12月1日

A Deep Learning Approach to the Prediction of Drug Side-Effects on Molecular Graphs

Arxiv

0+阅读 · 2022年11月30日

Optimal Transport of Classifiers to Fairness

Arxiv

0+阅读 · 2022年11月29日

Time-Series Event Prediction with Evolutionary State Graph

Arxiv

14+阅读 · 2020年11月25日

Learning Implicit Fields for Generative Shape Modeling

Learning Implicit Fields for Generative Shape Modeling

Arxiv

11+阅读 · 2018年12月6日

VIP会员

相关主题

蛋白质溶解度预测

相关VIP内容

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知会员服务

120+阅读 · 2022年11月24日

美国陆军《机器学习方法对红外视频数据的适用性》27页技术报告

美国陆军《机器学习方法对红外视频数据的适用性》27页技术报告

专知会员服务

68+阅读 · 2022年7月7日

美国海军《使用机器学习和可穿戴技术进行疲劳检测/预测》

美国海军《使用机器学习和可穿戴技术进行疲劳检测/预测》

专知会员服务

48+阅读 · 2022年7月3日

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

专知会员服务

19+阅读 · 2022年5月1日

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

专知会员服务

59+阅读 · 2022年4月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

面向作战人员负责任地寻求生成式人工智能

《Hello-Agents》项目正式发布，一起从零学习智能体！

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

相关资讯

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

美国空军研究实验室《探索深度学习系统的脆弱性和稳健性》2022年最新85页技术报告

美国空军研究实验室《探索深度学习系统的脆弱性和稳健性》2022年最新85页技术报告

专知

9+阅读 · 2022年7月6日

许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

许锦波团队开发蛋白逆折叠深度学习框架，用更少结构数据训练获得更准确序列预测

机器之心

0+阅读 · 2022年4月24日

谷歌AI一次注释了10%的已知蛋白质序列，超过人类十年研究成果

谷歌AI一次注释了10%的已知蛋白质序列，超过人类十年研究成果

机器之心

0+阅读 · 2022年2月22日

相关基金

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

大规模保留指数集辅助质谱分子识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

应用机器学习方法预测和分析蛋白质的结构柔性

国家自然科学基金

4+阅读 · 2010年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于元胞自动机图的蛋白质序列离散灰色模型及其在药物设计中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Conditional Neural Processes for Molecules

Arxiv

0+阅读 · 2022年12月1日

A Deep Learning Approach to the Prediction of Drug Side-Effects on Molecular Graphs

Arxiv

0+阅读 · 2022年11月30日

Optimal Transport of Classifiers to Fairness

Arxiv

0+阅读 · 2022年11月29日

Time-Series Event Prediction with Evolutionary State Graph

Arxiv

14+阅读 · 2020年11月25日

Learning Implicit Fields for Generative Shape Modeling

Learning Implicit Fields for Generative Shape Modeling

Arxiv

11+阅读 · 2018年12月6日

微信扫码咨询专知VIP会员