Transformer-based approaches have been successfully used to obtain state-of-the-art accuracy on natural language processing (NLP) tasks with semi-structured tables. These model architectures are typically deep, resulting in slow training and inference, especially for long inputs. To improve efficiency while maintaining a high accuracy, we propose a new architecture, DoT, a double transformer model, that decomposes the problem into two sub-tasks: A shallow pruning transformer that selects the top-K tokens, followed by a deep task-specific transformer that takes as input those K tokens. Additionally, we modify the task-specific attention to incorporate the pruning scores. The two transformers are jointly trained by optimizing the task-specific loss. We run experiments on three benchmarks, including entailment and question-answering. We show that for a small drop of accuracy, DoT improves training and inference time by at least 50%. We also show that the pruning transformer effectively selects relevant tokens enabling the end-to-end model to maintain similar accuracy as slower baseline models. Finally, we analyse the pruning and give some insight into its impact on the task model.


翻译:以变换器为基础的方法已被成功地用于获得自然语言处理(NLP)任务中具有半结构化表格的最先进的精确度。 这些模型结构一般是深度的,导致培训速度和推断速度缓慢,特别是对于长期投入而言。为了提高效率,同时保持高精度,我们提议了一个新的结构,即DOT,一个双变压器模型,将问题分解成两个子任务:一个浅色的调整变压器,选择最高K级标牌,然后是一个深度的任务特定变压器,作为输入K级标牌。此外,我们修改特定任务的关注度,以纳入调整分数。两个变压器通过优化任务特定损失的优化共同培训。我们在三个基准上进行实验,包括要求和答题。我们显示,如果精度小一点,DT可以提高培训和推算时间,至少50%。我们还显示,运行变压器有效地选择了相关的代号,使最终到终端模型能够保持相似的精确度,作为较慢的基线模型。最后,我们分析其影响。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
专知会员服务
16+阅读 · 2020年7月27日
专知会员服务
61+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2019年8月22日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
专知会员服务
16+阅读 · 2020年7月27日
专知会员服务
61+阅读 · 2020年3月19日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
5+阅读 · 2019年8月22日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
13+阅读 · 2017年12月5日
Top
微信扫码咨询专知VIP会员