【NeurIPS2024】训练计算最优的蛋白质语言模型 - 专知VIP

会员服务 ·

0

NeurIPS 2024 · 蛋白质语言模型 ·

【NeurIPS2024】训练计算最优的蛋白质语言模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们探讨了如何最优地训练蛋白质语言模型，这一领域在生物研究中备受关注，但有关最佳实践的指导较为有限。大多数模型在训练时耗费大量计算资源，直到性能增益趋于平稳，主要集中在增加模型规模，而非优化平衡性能和计算预算的高效计算边界。我们的研究基于包含 9.39 亿条蛋白质序列的大规模数据集。我们训练了超过 300 个模型，参数规模从 350 万到 107 亿不等，训练的独特标记数从 50 亿到 2000 亿，以探讨模型规模、训练标记数量和目标之间的关系。

首先，我们观察到因果语言模型（CLM）的收益递减效应，以及在重复使用常见的 Uniref 数据库时，掩码语言模型（MLM）的过拟合现象。为了解决这一问题，我们在训练集中加入了宏基因组蛋白质序列，以增加多样性，避免性能的平稳或过拟合现象。其次，我们获得了基于 Transformer 的 CLM 和 MLM 的扩展规律，这些规律针对蛋白质序列数据的特定特性进行了优化。第三，我们观察到从 CLM 到 MLM 的迁移扩展现象，通过基于有效迁移标记数量的扩展行为进一步证明了迁移的有效性。

最后，为验证我们的扩展规律，我们将大规模版本的 ESM-2 和 PROGEN2 在下游任务上进行比较，涵盖蛋白质生成以及与结构和功能相关的任务评估，所有测试均在不超过或相等的预训练计算预算内完成。

成为VIP会员查看完整内容

0

相关内容

NeurIPS 2024

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

专知会员服务

15+阅读 · 10月4日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

23+阅读 · 6月30日

【CVPR2024】扩散模型的结构指导对抗训练

【CVPR2024】扩散模型的结构指导对抗训练

专知会员服务

22+阅读 · 2月28日

【AAAI2024】基于扩散语言模型的文本引导分子生成

【AAAI2024】基于扩散语言模型的文本引导分子生成

专知会员服务

27+阅读 · 2月21日

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

专知会员服务

31+阅读 · 1月21日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

29+阅读 · 2023年10月26日

【NeurIPS2023】将持续学习重新定义为序列建模

【NeurIPS2023】将持续学习重新定义为序列建模

专知会员服务

33+阅读 · 2023年10月19日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

31+阅读 · 2023年5月19日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

19+阅读 · 2021年12月21日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

44+阅读 · 2020年3月6日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

16+阅读 · 2020年6月26日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

复杂疾病的全基因组SNP互作网络构建与分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

拟南芥非编码RNA HID1参与红光介导的光形态建成调控的分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

4+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

10+阅读 · 2012年12月31日

Localized KBO with genetic dynamics for multi-modal optimizat

Arxiv

0+阅读 · 11月7日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

155+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

90+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

171+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

395+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

66+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

22+阅读 · 2023年1月13日

VIP会员

相关主题

蛋白质语言模型

相关VIP内容

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

专知会员服务

15+阅读 · 10月4日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

23+阅读 · 6月30日

【CVPR2024】扩散模型的结构指导对抗训练

【CVPR2024】扩散模型的结构指导对抗训练

专知会员服务

22+阅读 · 2月28日

【AAAI2024】基于扩散语言模型的文本引导分子生成

【AAAI2024】基于扩散语言模型的文本引导分子生成

专知会员服务

27+阅读 · 2月21日

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

【ICLR2024】为样本高效的强化学习预训练基于目标的模型

专知会员服务

31+阅读 · 1月21日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

29+阅读 · 2023年10月26日

【NeurIPS2023】将持续学习重新定义为序列建模

【NeurIPS2023】将持续学习重新定义为序列建模

专知会员服务

33+阅读 · 2023年10月19日

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

【ICML2023】调整语言模型作为增强少样本学习的训练数据生成器

专知会员服务

31+阅读 · 2023年5月19日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

19+阅读 · 2021年12月21日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

44+阅读 · 2020年3月6日

热门VIP内容

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

16+阅读 · 2020年6月26日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

【三星AI-CVPR2020】增量小样本目标检测，Incremental Few-Shot Object Detection

专知

55+阅读 · 2020年3月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

相关基金

复杂疾病的全基因组SNP互作网络构建与分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

拟南芥非编码RNA HID1参与红光介导的光形态建成调控的分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

36+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

4+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

10+阅读 · 2012年12月31日

相关论文

Localized KBO with genetic dynamics for multi-modal optimizat

Arxiv

0+阅读 · 11月7日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

155+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

90+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

171+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

395+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

66+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

44+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

19+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

22+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员