We investigate the training of sparse layers that use different parameters for different inputs based on hashing in large Transformer models. Specifically, we modify the feedforward layer to hash to different sets of weights depending on the current token, over all tokens in the sequence. We show that this procedure either outperforms or is competitive with learning-to-route mixture-of-expert methods such as Switch Transformers and BASE Layers, while requiring no routing parameters or extra terms in the objective function such as a load balancing loss, and no sophisticated assignment algorithm. We study the performance of different hashing techniques, hash sizes and input features, and show that balanced and random hashes focused on the most local features work best, compared to either learning clusters or using longer-range context. We show our approach works well both on large language modeling and dialogue tasks, and on downstream fine-tuning tasks.


翻译:我们在大型变换器模型中根据散列方式对不同投入使用不同参数的稀疏层进行培训。 具体地说, 我们修改进料层, 使进料层变成根据当前符号的不同重量组, 取决于序列中所有符号的重量组。 我们显示,这个程序要么优于或优于诸如开关变换器和BASE图层等从学习到路径的混合专家方法, 而同时在目标功能中不要求路线参数或额外条件, 如负载平衡损失, 没有复杂的分配算法 。 我们研究不同的散列技术、 散列大小和输入特性的性能, 并显示平衡和随机地掌握着最适合本地特征的工作, 而不是学习集群或使用远程环境。 我们展示了我们的方法在大型语言建模和对话任务以及下游微调任务上都很有效 。

0
下载
关闭预览

相关内容

【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年9月21日
Arxiv
0+阅读 · 2021年9月21日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
4+阅读 · 2017年1月2日
VIP会员
相关论文
Arxiv
0+阅读 · 2021年9月21日
Arxiv
0+阅读 · 2021年9月21日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
4+阅读 · 2017年1月2日
Top
微信扫码咨询专知VIP会员