我们探讨了如何最优地训练蛋白质语言模型,这一领域在生物研究中备受关注,但有关最佳实践的指导较为有限。大多数模型在训练时耗费大量计算资源,直到性能增益趋于平稳,主要集中在增加模型规模,而非优化平衡性能和计算预算的高效计算边界。我们的研究基于包含 9.39 亿条蛋白质序列的大规模数据集。我们训练了超过 300 个模型,参数规模从 350 万到 107 亿不等,训练的独特标记数从 50 亿到 2000 亿,以探讨模型规模、训练标记数量和目标之间的关系。

首先,我们观察到因果语言模型(CLM)的收益递减效应,以及在重复使用常见的 Uniref 数据库时,掩码语言模型(MLM)的过拟合现象。为了解决这一问题,我们在训练集中加入了宏基因组蛋白质序列,以增加多样性,避免性能的平稳或过拟合现象。其次,我们获得了基于 Transformer 的 CLM 和 MLM 的扩展规律,这些规律针对蛋白质序列数据的特定特性进行了优化。第三,我们观察到从 CLM 到 MLM 的迁移扩展现象,通过基于有效迁移标记数量的扩展行为进一步证明了迁移的有效性。

最后,为验证我们的扩展规律,我们将大规模版本的 ESM-2 和 PROGEN2 在下游任务上进行比较,涵盖蛋白质生成以及与结构和功能相关的任务评估,所有测试均在不超过或相等的预训练计算预算内完成。

成为VIP会员查看完整内容
7

相关内容

【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
22+阅读 · 2月28日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
29+阅读 · 2023年10月26日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
19+阅读 · 2021年12月21日
专知会员服务
44+阅读 · 2020年3月6日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
22+阅读 · 2月28日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
29+阅读 · 2023年10月26日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
19+阅读 · 2021年12月21日
专知会员服务
44+阅读 · 2020年3月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员