新的蛋白质序列通过突变产生。这些突变可能是有害的,有益的,或中性的;突变对生物体进化适应性的影响反映在生物体存活的时间是否足够长,使其蛋白质能够被采样并储存在序列数据库中。长期以来,生物信息学一直寻求利用这种进化信号,通常以多重序列比对(MSAs)的形式,来推断新蛋白质的结构和功能。随着神经网络和自监督预训练的出现,一种不同的方法出现了,使用语言建模目标对大规模神经网络进行预训练,从输入的蛋白质序列自动生成信息特征。
本文介绍了在一个通用基准上训练和评估蛋白质语言模型的方法。随后,研究了增加模型缩放、数据集预处理和超参数训练对transformers 在没有监督的情况下学习蛋白质接触能力的影响。一种新的方法操作在MSAs而不是单一序列,然后提出,并显示在几个下游任务达到最先进的性能。最后,讨论了这些方法在蛋白质设计中的应用。