Predicting the binding affinity between antigens and antibodies is fundamental to drug discovery and vaccine development. Traditional computational approaches often rely on experimentally determined 3D structures, which are scarce and computationally expensive to obtain. This paper introduces DuaDeep-SeqAffinity, a novel sequence-only deep learning framework that predicts affinity scores solely from their amino acid sequences using a dual-stream hybrid architecture. Our approach leverages pre-trained ESM-2 protein language model embeddings, combining 1D Convolutional Neural Networks (CNNs) for local motif detection with Transformer encoders for global contextual representation. A subsequent fusion module integrates these multi-faceted features, which are then passed to a fully connected network for final score regression. Experimental results demonstrate that DuaDeep-SeqAffinity significantly outperforms individual architectural components and existing state-of-the-art (SOTA) methods. DuaDeep achieved a superior Pearson correlation of 0.688, an R^2 of 0.460, and a Root Mean Square Error (RMSE) of 0.737, surpassing single-branch variants ESM-CNN and ESM-Transformer. Notably, the model achieved an Area Under the Curve (AUC) of 0.890, outperforming sequence-only benchmarks and even surpassing structure-sequence hybrid models. These findings prove that high-fidelity sequence embeddings can capture essential binding patterns typically reserved for structural modeling. By eliminating the reliance on 3D structures, DuaDeep-SeqAffinity provides a highly scalable and efficient solution for high-throughput screening of vast sequence libraries, significantly accelerating the therapeutic discovery pipeline.


翻译:预测抗原与抗体之间的结合亲和力是药物发现和疫苗开发的基础。传统的计算方法通常依赖于实验确定的三维结构,而这些结构不仅稀缺且计算获取成本高昂。本文介绍了DuaDeep-SeqAffinity,一种新颖的仅序列深度学习框架,它通过双流混合架构,仅从氨基酸序列预测亲和力分数。我们的方法利用预训练的ESM-2蛋白质语言模型嵌入,结合用于局部基序检测的一维卷积神经网络(CNNs)和用于全局上下文表示的Transformer编码器。随后的融合模块整合了这些多方面的特征,然后将其传递至全连接网络进行最终分数回归。实验结果表明,DuaDeep-SeqAffinity显著优于单个架构组件和现有的最先进(SOTA)方法。DuaDeep取得了优异的皮尔逊相关系数0.688、R^2为0.460以及均方根误差(RMSE)为0.737,超越了单分支变体ESM-CNN和ESM-Transformer。值得注意的是,该模型的曲线下面积(AUC)达到了0.890,优于仅序列基准模型,甚至超越了结构-序列混合模型。这些发现证明,高保真度的序列嵌入能够捕捉通常为结构建模所保留的关键结合模式。通过消除对三维结构的依赖,DuaDeep-SeqAffinity为大规模序列库的高通量筛选提供了一个高度可扩展且高效的解决方案,从而显著加速了治疗发现的流程。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员