生成特定条件下的抗体链序列：基于编码器-解码器语言模型的方法 (Conditional Generation of Paired Antibody Chain Sequences through Encoder-Decoder Language Model) - 专知论文

会员服务 ·

0

蛋白质语言模型 · 语言模型 · 序列 · 蛋白质-蛋白质 · 解码 ·

2023 年 4 月 4 日

Conditional Generation of Paired Antibody Chain Sequences through Encoder-Decoder Language Model

翻译：生成特定条件下的抗体链序列：基于编码器-解码器语言模型的方法

Simon K. S. Chu,Kathy Y. Wei

Protein language models (LMs) have been successful in sequence, structural and functional predictions. However, currently, protein LMs are limited to encoder- or decoder-only architectures for single sequences while many biological contexts involve protein-protein interactions. Here, we introduce pAbT5, which models antibody chain pairing as forward- and back-translations using a T5-based architecture. We show that pAbT5 accurately reflects chain pairing through sequence generation. Our protein LM generates variable-length sequences and its next-word prediction probability agrees with position-specific scoring matrix from sequence alignment. Like other works in protein LM, pAbT5 performs state-of-the-art unsupervised prediction on experimental measurements. To the best of our knowledge, pAbT5 is the first generative encoder-decoder protein LM for protein-protein interactions.

翻译：蛋白质语言模型已经成功地应用于序列、结构和功能预测。然而，目前，蛋白质语言模型仅限于单个序列的编码器或解码器，而许多生物学背景涉及蛋白质-蛋白质相互作用。在本研究中，我们引入了pAbT5，通过基于T5的架构将抗体链匹配建模为正向和反向翻译。我们证明了pAbT5通过序列生成准确地反映了链配对。我们的蛋白质语言模型可以生成可变长度的序列，并且其下一个词的预测概率与来自序列比对的位置特异性评分矩阵一致。像蛋白质语言模型中的其他作品一样，pAbT5在实验测量上进行了最先进的无监督预测。据我们所知，pAbT5是第一个用于蛋白质-蛋白质相互作用的生成型编码器-解码器蛋白质语言模型。

0

相关内容

蛋白质语言模型

蛋白质语言模型

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

专知会员服务

16+阅读 · 2020年4月8日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【AAAI2020】实体关系联合抽取的编码器-解码器结构的有效建模（ Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction）

【AAAI2020】实体关系联合抽取的编码器-解码器结构的有效建模（ Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction）

专知会员服务

53+阅读 · 2019年11月22日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

蛋白质相互作用及结合位点的预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

碳源胁迫对颗粒污泥稳定性及除磷特性的影响及机制

国家自然科学基金

0+阅读 · 2013年12月31日

DACI1 调控Cyt b6/f 复合物组装的功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向生命周期能耗评估的建筑信息模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于法向热传导的垂直取向液晶高分子薄膜研究

国家自然科学基金

0+阅读 · 2012年12月31日

蛋白质与蛋白质的结合位点结构比对方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向理解的软件错误定位方法：状态转移概率推理建模

国家自然科学基金

2+阅读 · 2012年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

核磁共振研究蛋白质内含子的溶液性质与蛋白剪接机理

国家自然科学基金

0+阅读 · 2008年12月31日

Siamese Masked Autoencoders

Arxiv

0+阅读 · 2023年5月23日

VideoLLM: Modeling Video Sequence with Large Language Models

Arxiv

1+阅读 · 2023年5月22日

Evaluating and Enhancing Structural Understanding Capabilities of Large Language Models on Tables via Input Designs

Arxiv

0+阅读 · 2023年5月22日

MaGIC: Multi-modality Guided Image Completion

Arxiv

0+阅读 · 2023年5月19日

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

Arxiv

0+阅读 · 2023年5月19日

Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions

Arxiv

0+阅读 · 2023年5月19日

Remembering What Is Important: A Factorised Multi-Head Retrieval and Auxiliary Memory Stabilisation Scheme for Human Motion Prediction

Arxiv

0+阅读 · 2023年5月19日

Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models

Arxiv

0+阅读 · 2023年5月18日

A Survey of Knowledge-Enhanced Pre-trained Language Models

Arxiv

18+阅读 · 2022年11月17日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

VIP会员

文章信息

相关主题

蛋白质语言模型

蛋白质-蛋白质

相关VIP内容

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

专知会员服务

16+阅读 · 2020年4月8日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

【AAAI2020知识图谱论文概述】Knowledge Graphs @ AAAI 2020

专知会员服务

134+阅读 · 2020年2月13日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【AAAI2020】实体关系联合抽取的编码器-解码器结构的有效建模（ Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction）

【AAAI2020】实体关系联合抽取的编码器-解码器结构的有效建模（ Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relation Extraction）

专知会员服务

53+阅读 · 2019年11月22日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

相关论文

Siamese Masked Autoencoders

Arxiv

0+阅读 · 2023年5月23日

VideoLLM: Modeling Video Sequence with Large Language Models

Arxiv

1+阅读 · 2023年5月22日

Evaluating and Enhancing Structural Understanding Capabilities of Large Language Models on Tables via Input Designs

Arxiv

0+阅读 · 2023年5月22日

MaGIC: Multi-modality Guided Image Completion

Arxiv

0+阅读 · 2023年5月19日

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

Arxiv

0+阅读 · 2023年5月19日

Self-Agreement: A Framework for Fine-tuning Language Models to Find Agreement among Diverse Opinions

Arxiv

0+阅读 · 2023年5月19日

Remembering What Is Important: A Factorised Multi-Head Retrieval and Auxiliary Memory Stabilisation Scheme for Human Motion Prediction

Arxiv

0+阅读 · 2023年5月19日

Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models

Arxiv

0+阅读 · 2023年5月18日

A Survey of Knowledge-Enhanced Pre-trained Language Models

Arxiv

18+阅读 · 2022年11月17日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

相关基金

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

蛋白质相互作用及结合位点的预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

碳源胁迫对颗粒污泥稳定性及除磷特性的影响及机制

国家自然科学基金

0+阅读 · 2013年12月31日

DACI1 调控Cyt b6/f 复合物组装的功能研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向生命周期能耗评估的建筑信息模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于法向热传导的垂直取向液晶高分子薄膜研究

国家自然科学基金

0+阅读 · 2012年12月31日

蛋白质与蛋白质的结合位点结构比对方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向理解的软件错误定位方法：状态转移概率推理建模

国家自然科学基金

2+阅读 · 2012年12月31日

de novo预测蛋白质结构的并行元启发方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

核磁共振研究蛋白质内含子的溶液性质与蛋白剪接机理

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员