NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文 - 专知VIP

会员服务 ·

16

深度学习 · 预训练模型 · 蛋白质组学 ·

2022 年 5 月 19 日

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近日，英国女王大学207页博士论文介绍了NLP中的transformer、BERT、预训练模型在蛋白质组学研究中的应用。作者考虑了人工智能和数据驱动分析的情况下，阻碍计算生物学应用中的障碍。在进行这种形式的研究时，有必要考虑所有可能对最终用户有用的应用和实现（如生物标志物研究领域的专家），并要保证所研究的内容必须是新颖的，并与当前的生物学趋势相关，以解决该领域的差距。

这个工作流介绍了蛋白质组序列分析的领域研究。重点是开发蛋白质序列处理技术，通过深度学习的其他子领域的最先进的方法进行增强建模。

多组学数据分析主要有两个目标

了解疾病的发病机制和病因
提高我们预测、预防和治疗疾病的能力（即转化医学）。

主要回答如下问题

对大量蛋白质组数据的DL模型进行预训练，一旦它被微调到一组下游任务，它的整体性能会提高吗？
当只有有限的标记蛋白质组学数据可用时，度量学习能否用于改进微调过程？
一旦DL模型被微调到下游任务，它能否用于识别氨基酸序列中与蛋白质功能相关的模式（即基序）？

所有这三个问题在每个章节都会讨论。

在第三章中，深度学习已被证明是一种建模蛋白质特性的有用工具。然而，考虑到蛋白质长度的多样性，很难有效的总结氨基酸序列。在许多情况下，由于使用固定长度表示法，有关长蛋白质的信息可能会因截断而丢失，或者由于过度填充，模型训练可能会很慢。

作者通过扩展用于表示蛋白质序列的原始词汇表来克服这些问题。具体的，研究了子词算法（Doc2Vec、BPE（Byte-Pair-Encoding））的使用，以生成各种词汇表，并对每种算法产生的预训练编码在多种下游任务上进行了测试：四个蛋白质性质预测任务（质膜定位[plasma membrane localisation]、热稳定性[thermostability]、峰值吸收波长[peak absorption wavelength]、对映体选择性[enantioselectivity]）以及在两个数据集上的药物靶点亲和力预测任务。

本章中使用的子词算法比之前预训练的Doc2Vec模型提供了更好的整体性能。

在第四章中，作者采用计算机视觉领域的方法，从最少的蛋白质组数据创建一个深度学习模型，将CNN和transformer结合起来，建立了一个最先进的磷酸化位点模型。还利用模型中transformer产生的注意图来识别每个位点中的关键模式。

第五章，综合评估了如何应用预训练和度量学习来为一系列下游蛋白质任务开发最先进的结。具体的，作者采用triplet BERT对每个数据集的BERT模型进行微调，并评估其在一组下游任务预测上的性能：质膜定位、热稳定性、峰值吸收波长、对映选择性。

结果显著改善了原始的BERT基线和之前针对每个任务的最先进模型，证明了使用triplet BERT在有限的数据集上优化如此大的预训练模型的好处。

作为一种白盒深度学习，作者还可视化了该模型如何处理蛋白质的特定部分，并检测改变其整体功能的关键修饰。

在最后一章的研究中，作者再次展示了预训练的价值，通过使用两个预训练的BERT模型和一个图卷积网络，为一组药物-靶标相互作用任务生成最先进的结果。

在第六章，深度学习已成为检测蛋白质磷酸化位点的创新工具。然而，负位点和正位点之间的不平衡使得深度学习模型难以准确地对所有位点进行分类。作者通过组合卷积操作和基于transformer的神经网络（下图DeepPS），以形成一个健壮的体系结构，以缓解不平衡位点的影响。

与之前的基线相比，不太可能过度拟合任何一类。

第七章，作者试图利用一组BERT-style的模型，这些模型已经对大量蛋白质和药物数据进行了预训练。

然后，每个模型产生的编码被用作图卷积神经网络的节点表示，而图卷积神经网络又被用于建模相互作用，而无需同时微调蛋白质和药物的BERT模型来完成任务，结果显著改进了基线方法以及每个任务数据集以前的最先进方法。

具体目录如下：

成为VIP会员查看完整内容

27

相关内容

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

196+阅读 · 2021年6月10日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知

1+阅读 · 2022年3月22日

大规模蛋白质翻译后修饰提取模型BioBERT，具有远程监督和置信度校准

大规模蛋白质翻译后修饰提取模型BioBERT，具有远程监督和置信度校准

机器之心

0+阅读 · 2022年2月1日

深度学习预测蛋白质-蛋白质相互作用

深度学习预测蛋白质-蛋白质相互作用

机器之心

5+阅读 · 2022年1月15日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

蛋白质相互作用及结合位点的预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于蛋白质复合物的关键蛋白质预测

国家自然科学基金

1+阅读 · 2013年12月31日

微流控芯片用于快速筛选蛋白质的核酸适体

国家自然科学基金

0+阅读 · 2011年12月31日

基于机器学习的蛋白质相互作用与功能预测方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

小波分析在定量蛋白质组学中的几个应用

国家自然科学基金

0+阅读 · 2009年12月31日

DSTEA: Dialogue State Tracking with Entity Adaptive Pre-training

Arxiv

0+阅读 · 2022年7月8日

The Role of Complex NLP in Transformers for Text Ranking?

Arxiv

0+阅读 · 2022年7月6日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Knowledge Representation Learning: A Quantitative Review

Knowledge Representation Learning: A Quantitative Review

Arxiv

28+阅读 · 2018年12月28日

VIP会员

相关主题

预训练模型

蛋白质组学

相关VIP内容

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

《蛋白质组学数据的深度学习》207页博士论文，英国女王大学

专知会员服务

17+阅读 · 2022年5月11日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

196+阅读 · 2021年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约联合仿真与集成、验证与鉴定服务标准》2025最新40页

《面向协同任务的无人地面车辆与无人机（UGV-UAV）集成研究综述》2025最新综述论文

《理解大语言模型在军事战术任务规划中的局限性》

《国防与安全会议论文集》最新80页

相关资讯

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知

1+阅读 · 2022年3月22日

大规模蛋白质翻译后修饰提取模型BioBERT，具有远程监督和置信度校准

大规模蛋白质翻译后修饰提取模型BioBERT，具有远程监督和置信度校准

机器之心

0+阅读 · 2022年2月1日

深度学习预测蛋白质-蛋白质相互作用

深度学习预测蛋白质-蛋白质相互作用

机器之心

5+阅读 · 2022年1月15日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

相关基金

蛋白质相互作用及结合位点的预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于蛋白质复合物的关键蛋白质预测

国家自然科学基金

1+阅读 · 2013年12月31日

微流控芯片用于快速筛选蛋白质的核酸适体

国家自然科学基金

0+阅读 · 2011年12月31日

基于机器学习的蛋白质相互作用与功能预测方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

小波分析在定量蛋白质组学中的几个应用

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

DSTEA: Dialogue State Tracking with Entity Adaptive Pre-training

Arxiv

0+阅读 · 2022年7月8日

The Role of Complex NLP in Transformers for Text Ranking?

Arxiv

0+阅读 · 2022年7月6日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Knowledge Representation Learning: A Quantitative Review

Knowledge Representation Learning: A Quantitative Review

Arxiv

28+阅读 · 2018年12月28日

微信扫码咨询专知VIP会员