Stack Long Short-Term Memory (StackLSTM) is useful for various applications such as parsing and string-to-tree neural machine translation, but it is also known to be notoriously difficult to parallelize for GPU training due to the fact that the computations are dependent on discrete operations. In this paper, we tackle this problem by utilizing state access patterns of StackLSTM to homogenize computations with regard to different discrete operations. Our parsing experiments show that the method scales up almost linearly with increasing batch size, and our parallelized PyTorch implementation trains significantly faster compared to the Dynet C++ implementation.


翻译:堆积长的短期内存(Stack Stack-LSTM)对于诸如剖析和线到树的神经机翻译等各种应用都有用,但众所周知,由于计算取决于离散操作,GPU培训也很难平行进行,这众所周知。 在本文中,我们通过使用 StackLSTM(Stack-LSTM)的国家存取模式来解决这个问题,以对不同离散操作的计算进行同质化。我们的解析实验显示,这种方法随着批量规模的扩大而几乎线性地扩大,而我们平行的PyTorch执行火车比Dynet C++执行速度要快得多。

0
下载
关闭预览

相关内容

【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关VIP内容
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
相关论文
Top
微信扫码咨询专知VIP会员