We introduce Lookup-Table Language Models (LookupLM), a method for scaling up the size of RNN language models with only a constant increase in the floating point operations, by increasing the expressivity of the embedding table. In particular, we instantiate an (additional) embedding table which embeds the previous n-gram token sequence, rather than a single token. This allows the embedding table to be scaled up arbitrarily -- with a commensurate increase in performance -- without changing the token vocabulary. Since embeddings are sparsely retrieved from the table via a lookup; increasing the size of the table adds neither extra operations to each forward pass nor extra parameters that need to be stored on limited GPU/TPU memory. We explore scaling n-gram embedding tables up to nearly a billion parameters. When trained on a 3-billion sentence corpus, we find that LookupLM improves long tail log perplexity by 2.44 and long tail WER by 23.4% on a downstream speech recognition task over a standard RNN language model baseline, an improvement comparable to a scaling up the baseline by 6.2x the number of floating point operations.


翻译:我们引入了查看表语言模型( Lookup- Table 语言模型( Luge- Table 语言模型), 这是一种通过增加嵌入表的表达性, 使浮动点操作持续增加来提升 RNN 语言模型规模的方法。 特别是, 我们立即将嵌入表( 附加的) 嵌入表嵌入到先前的 n 克象征性序列中, 而不是一个符号 。 这样可以任意扩大嵌入表 -- -- 其性能相应增加 -- -- 而不改变符号词汇。 由于嵌入表通过浏览从表格中稀疏取; 增加表格的大小既不会给每个前方通道增加额外的操作, 也不会增加需要存储在有限的 GPU/ TPU 记忆中的额外参数。 我们探索将 n 克嵌入表缩放到近10亿 参数 。 在对30 个句体进行训练时, 我们发现 LookupLM 将长尾边线的翻增2.44 和长尾尾巴WER 23. 4%, 在标准 RNN 语言模型基线的下游语音识别任务中, 将改进与基线提升为6.2x 。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2020年9月6日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
6+阅读 · 2019年7月11日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2020年9月6日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员