In this work we introduce KERNELIZED TRANSFORMER, a generic, scalable, data driven framework for learning the kernel function in Transformers. Our framework approximates the Transformer kernel as a dot product between spectral feature maps and learns the kernel by learning the spectral distribution. This not only helps in learning a generic kernel end-to-end, but also reduces the time and space complexity of Transformers from quadratic to linear. We show that KERNELIZED TRANSFORMERS achieve performance comparable to existing efficient Transformer architectures, both in terms of accuracy as well as computational efficiency. Our study also demonstrates that the choice of the kernel has a substantial impact on performance, and kernel learning variants are competitive alternatives to fixed kernel Transformers, both in long as well as short sequence tasks.


翻译:在这项工作中,我们引入了KERNELIZED Transformerc,这是一个用于在变换器中学习内核函数的通用、可扩展的数据驱动框架。我们的框架将变换器内核作为光谱地貌图之间的圆点产品,并通过学习光谱分布来学习内核。这不仅有助于学习通用内核端到端,而且会减少变换器从二次变换到线性的时间和空间复杂性。我们显示,KERNELIZED TransformercS在准确性和计算效率两方面都取得了与现有高效变换器结构相类似的性能。我们的研究还表明,内核的选择对性能有重大影响,而内核学习变异体是固定内核变体的竞争性替代物,既可以长也可以短顺序任务。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年7月15日
专知会员服务
42+阅读 · 2020年12月18日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年12月14日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年7月15日
专知会员服务
42+阅读 · 2020年12月18日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
相关论文
Top
微信扫码咨询专知VIP会员