NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文 - 专知

会员服务 ·

0

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

2022 年 5 月 14 日 GenomicAI

近日，英国女王大学207页博士论文介绍了NLP中的transformer、BERT、预训练模型在蛋白质组学研究中的应用。作者考虑了人工智能和数据驱动分析的情况下，阻碍计算生物学应用中的障碍。在进行这种形式的研究时，有必要考虑所有可能对最终用户有用的应用和实现（如生物标志物研究领域的专家），并要保证所研究的内容必须是新颖的，并与当前的生物学趋势相关，以解决该领域的差距。

这个工作流介绍了蛋白质组序列分析的领域研究。重点是开发蛋白质序列处理技术，通过深度学习的其他子领域的最先进的方法进行增强建模。

多组学数据分析主要有两个目标

了解疾病的发病机制和病因
提高我们预测、预防和治疗疾病的能力（即转化医学）。

主要回答如下问题

对大量蛋白质组数据的DL模型进行预训练，一旦它被微调到一组下游任务，它的整体性能会提高吗？
当只有有限的标记蛋白质组学数据可用时，度量学习能否用于改进微调过程？
一旦DL模型被微调到下游任务，它能否用于识别氨基酸序列中与蛋白质功能相关的模式（即基序）？

所有这三个问题在每个章节都会讨论。

在第三章中，深度学习已被证明是一种建模蛋白质特性的有用工具。然而，考虑到蛋白质长度的多样性，很难有效的总结氨基酸序列。在许多情况下，由于使用固定长度表示法，有关长蛋白质的信息可能会因截断而丢失，或者由于过度填充，模型训练可能会很慢。

作者通过扩展用于表示蛋白质序列的原始词汇表来克服这些问题。具体的，研究了子词算法（Doc2Vec、BPE（Byte-Pair-Encoding））的使用，以生成各种词汇表，并对每种算法产生的预训练编码在多种下游任务上进行了测试：四个蛋白质性质预测任务（质膜定位[plasma membrane localisation]、热稳定性[thermostability]、峰值吸收波长[peak absorption wavelength]、对映体选择性[enantioselectivity]）以及在两个数据集上的药物靶点亲和力预测任务。

本章中使用的子词算法比之前预训练的Doc2Vec模型提供了更好的整体性能。

在第四章中，作者采用计算机视觉领域的方法，从最少的蛋白质组数据创建一个深度学习模型，将CNN和transformer结合起来，建立了一个最先进的磷酸化位点模型。还利用模型中transformer产生的注意图来识别每个位点中的关键模式。

第五章，综合评估了如何应用预训练和度量学习来为一系列下游蛋白质任务开发最先进的结。具体的，作者采用triplet BERT对每个数据集的BERT模型进行微调，并评估其在一组下游任务预测上的性能：质膜定位、热稳定性、峰值吸收波长、对映选择性。

结果显著改善了原始的BERT基线和之前针对每个任务的最先进模型，证明了使用triplet BERT在有限的数据集上优化如此大的预训练模型的好处。

作为一种白盒深度学习，作者还可视化了该模型如何处理蛋白质的特定部分，并检测改变其整体功能的关键修饰。

在最后一章的研究中，作者再次展示了预训练的价值，通过使用两个预训练的BERT模型和一个图卷积网络，为一组药物-靶标相互作用任务生成最先进的结果。

在第六章，深度学习已成为检测蛋白质磷酸化位点的创新工具。然而，负位点和正位点之间的不平衡使得深度学习模型难以准确地对所有位点进行分类。作者通过组合卷积操作和基于transformer的神经网络（下图DeepPS），以形成一个健壮的体系结构，以缓解不平衡位点的影响。

与之前的基线相比，不太可能过度拟合任何一类。

第七章，作者试图利用一组BERT-style的模型，这些模型已经对大量蛋白质和药物数据进行了预训练。

然后，每个模型产生的编码被用作图卷积神经网络的节点表示，而图卷积神经网络又被用于建模相互作用，而无需同时微调蛋白质和药物的BERT模型来完成任务，结果显著改进了基线方法以及每个任务数据集以前的最先进方法。

具体目录如下：

后台回复：PRO 获取博士论文

登录查看更多

0

相关内容

机器学习用于化合物的作用机制、安全性（包括PROTACs）预测｜剑桥大学249页博士论文

机器学习用于化合物的作用机制、安全性（包括PROTACs）预测｜剑桥大学249页博士论文

专知会员服务

15+阅读 · 2022年5月29日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

专知会员服务

60+阅读 · 2020年7月14日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知

1+阅读 · 2022年3月22日

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

GenomicAI

1+阅读 · 2022年3月13日

基于生物网络的共享肽归属及蛋白质定性算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

鉴定与p21相互作用的一个新分子

国家自然科学基金

0+阅读 · 2011年12月31日

蛋白质三维拼装基元

国家自然科学基金

1+阅读 · 2011年12月31日

基于全原子模型预测提高蛋白质热稳定的突变位点

国家自然科学基金

1+阅读 · 2008年12月31日

Sockeye 3: Fast Neural Machine Translation with PyTorch

Arxiv

0+阅读 · 2022年8月2日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

LAD: Language Models as Data for Zero-Shot Dialog

Arxiv

0+阅读 · 2022年7月28日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

Graph Neural Networks for Natural Language Processing: A Survey

Arxiv

36+阅读 · 2021年6月10日

VIP会员

相关主题

预训练模型

相关VIP内容

机器学习用于化合物的作用机制、安全性（包括PROTACs）预测｜剑桥大学249页博士论文

机器学习用于化合物的作用机制、安全性（包括PROTACs）预测｜剑桥大学249页博士论文

专知会员服务

15+阅读 · 2022年5月29日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

最新《3D医疗图像处理》综述论文，23页pdf，3D Deep Learning on Medical Images: A Review

专知会员服务

60+阅读 · 2020年7月14日

热门VIP内容

开通专知VIP会员享更多权益服务

星链与未来战争

《黑蜂（Black Hummingbird）微型无人机》

《全球地缘政治环境中的反无人机系统互操作性》252页

《美国：为自动驾驶汽车铺平道路——未来出行已来》最新43页报告

相关资讯

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知

1+阅读 · 2022年3月22日

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

伯克利Roshan Rao 157页博士论文：训练，评估和理解蛋白质序列的进化模型

GenomicAI

1+阅读 · 2022年3月13日

相关基金

基于生物网络的共享肽归属及蛋白质定性算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

鉴定与p21相互作用的一个新分子

国家自然科学基金

0+阅读 · 2011年12月31日

蛋白质三维拼装基元

国家自然科学基金

1+阅读 · 2011年12月31日

基于全原子模型预测提高蛋白质热稳定的突变位点

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Sockeye 3: Fast Neural Machine Translation with PyTorch

Arxiv

0+阅读 · 2022年8月2日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

LAD: Language Models as Data for Zero-Shot Dialog

Arxiv

0+阅读 · 2022年7月28日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

Graph Neural Networks for Natural Language Processing: A Survey

Arxiv

36+阅读 · 2021年6月10日

大家都在搜

分布式事务

大型语言模型

蓝牙安全攻防

国家社科基金

对话拼多多创始人黄峥

微信扫码咨询专知VIP会员