Recent works have demonstrated great success in training high-capacity autoregressive language models (GPT, GPT-2, GPT-3) on a huge amount of unlabeled text corpus for text generation. Despite showing great results, autoregressive models are facing a growing training instability issue. Our study on GPT-2 models (117M and 1.5B parameters) show that larger model sizes, sequence lengths, batch sizes, and learning rates would lead to lower training stability and increasing divergence risks. To avoid divergence and achieve better generalization performance, one has to train with smaller batch sizes and learning rates, which leads to worse training efficiency and longer training time. To overcome this stability-efficiency dilemma, we present a study of a curriculum learning-based approach, which helps improves the pre-training convergence speed of autoregressive models. More importantly, we find that curriculum learning, as a regularization method, exerts a gradient variance reduction effect and enables to train autoregressive models with much larger batch sizes and learning rates without training instability, further improving the training speed. Our evaluations demonstrate that curriculum learning enables training GPT-2 models with 8x larger batch size and 4x larger learning rate, whereas the baseline approach struggles with training divergence. To achieve the same validation perplexity targets during pre-training, curriculum learning reduces the required number of tokens and wall clock time by up to 61% and 49%, respectively. To achieve the same or better zero-shot WikiText-103/LAMBADA evaluation results at the end of pre-training, curriculum learning reduces the required number of tokens and wall clock time by up to 54% and 70%, respectively.


翻译:最近的工作显示,在培训能力强的自动递减语言模型(GPT、GPT-2、GPT-2、GPT-3)方面,在培训大量无标签的文本材料以生成文本方面,最近的工作取得了巨大成功。尽管取得了巨大成果,但自动递减模式正面临日益严重的培训不稳定问题。我们对GPT-2模型(117M和1.5B参数)的研究显示,较大的模型规模、序列长度、批量规模和学习率将降低培训稳定性和增加差异风险。为避免差异并实现更好的概括化业绩,必须用较小的批量规模和学习率来培训,从而导致培训效率下降,培训时间更长。为克服这种稳定-效率两难局面,我们提出对课程学习基础方法的研究,帮助提高自动递增模式培训前的趋同速度(117MT),同时通过学习标准(49-2010),通过学习标准(49-2010年),通过学习标准(49-2010年),学习标准(49-2010年)。

0
下载
关闭预览

相关内容

Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
13+阅读 · 2020年4月12日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年6月19日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员