Model compression is significant for the wide adoption of Recurrent Neural Networks (RNNs) in both user devices possessing limited resources and business clusters requiring quick responses to large-scale service requests. This work aims to learn structurally-sparse Long Short-Term Memory (LSTM) by reducing the sizes of basic structures within LSTM units, including input updates, gates, hidden states, cell states and outputs. Independently reducing the sizes of basic structures can result in inconsistent dimensions among them, and consequently, end up with invalid LSTM units. To overcome the problem, we propose Intrinsic Sparse Structures (ISS) in LSTMs. Removing a component of ISS will simultaneously decrease the sizes of all basic structures by one and thereby always maintain the dimension consistency. By learning ISS within LSTM units, the obtained LSTMs remain regular while having much smaller basic structures. Based on group Lasso regularization, our method achieves 10.59x speedup without losing any perplexity of a language modeling of Penn TreeBank dataset. It is also successfully evaluated through a compact model with only 2.69M weights for machine Question Answering of SQuAD dataset. Our approach is successfully extended to non- LSTM RNNs, like Recurrent Highway Networks (RHNs). Our source code is publicly available at https://github.com/wenwei202/iss-rnns


翻译:模型压缩对于广泛采用经常神经网络十分重要,因为其用户装置拥有有限的资源,而业务集群则需要对大规模服务请求作出迅速反应。这项工作的目的是通过减少LSTM单元内基本结构的规模,包括输入更新、大门、隐藏状态、单元格状态和产出,学习结构扭曲的长期短期内存(LSTM),从而减少LSTM单元内基本结构的规模,包括输入更新、大门、隐藏状态、单元格状态和产出。独立地缩小基本结构的规模,可造成这些结构的尺寸不一致,从而最终导致无效的LSTM单元。为了克服问题,我们提议在LSTMS中采用Intrinsic Sprass结构(IS)。删除国际空间站的一个组件将同时减少所有基本结构的大小,从而始终保持维度的一致性。通过LSTM单元内的基础设施基础设施基础设施学习,获得的LSTMs保持正常状态,而基本结构要小得多。根据Lasso的规范,我们的方法可以实现10.59x速度,而不会失去对Pen TreeBank数据集进行任何令人困惑的模型。我们通过一个只有2.69M重量/M重量的压缩的压缩模型来成功地评价。我们的SRCRRCS的Serus Rex 的公开代码是我们的Serus的Serus 。Serus commus 。像的正常的常规源。

4
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
115+阅读 · 2019年12月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
4+阅读 · 2017年7月25日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
4+阅读 · 2017年7月25日
Arxiv
4+阅读 · 2015年8月25日
Top
微信扫码咨询专知VIP会员