Detecting protein-protein interactions (PPIs) is crucial for understanding genetic mechanisms, disease pathogenesis, and drug design. However, with the fast-paced growth of biomedical literature, there is a growing need for automated and accurate extraction of PPIs to facilitate scientific knowledge discovery. Pre-trained language models, such as generative pre-trained transformer (GPT) and bidirectional encoder representations from transformers (BERT), have shown promising results in natural language processing (NLP) tasks. We evaluated the PPI identification performance of various GPT and BERT models using a manually curated benchmark corpus of 164 PPIs in 77 sentences from learning language in logic (LLL). BERT-based models achieved the best overall performance, with PubMedBERT achieving the highest precision (85.17%) and F1-score (86.47%) and BioM-ALBERT achieving the highest recall (93.83%). Despite not being explicitly trained for biomedical texts, GPT-4 achieved comparable performance to the best BERT models with 83.34% precision, 76.57% recall, and 79.18% F1-score. These findings suggest that GPT models can effectively detect PPIs from text data and have the potential for use in biomedical literature mining tasks.


翻译:检测蛋白质相互作用(PPI)对于理解遗传机制、疾病发病机制和药物设计至关重要。然而,随着生物医学文献的快速增长,需要自动化和准确的PPI提取以促进科学知识发现。预训练语言模型,如生成式预训练变压器(GPT)和双向编码器表示来自变压器(BERT),在自然语言处理(NLP)任务中表现出了良好的结果。我们使用手动筛选的学习语言逻辑(LLL)基准语料库,评估了各种GPT和BERT模型的PPI识别性能,该基准语料库包含了77个句子中的164个PPI。基于BERT的模型实现了最佳的整体表现,其中PubMedBERT在精确度(85.17%)和F1值(86.47%)方面表现最佳,而BioM-ALBERT在召回率(93.83%)方面表现最佳。尽管未经过针对生物医学文本的显式训练,但GPT-4实现了与最佳BERT模型相当的性能,精确度为83.34%,召回率为76.57%,F1值为79.18%。这些发现表明,GPT模型可以有效地从文本数据中检测到PPI,并具有在生物医学文献挖掘任务中使用的潜力。

0
下载
关闭预览

相关内容

Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
11+阅读 · 2022年9月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月22日
Arxiv
7+阅读 · 2023年5月18日
Arxiv
15+阅读 · 2022年1月24日
VIP会员
相关VIP内容
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
11+阅读 · 2022年9月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员