Transformers are expensive to train due to the quadratic time and space complexity in the self-attention mechanism. On the other hand, although kernel machines suffer from the same computation bottleneck in pairwise dot products, several approximation schemes have been successfully incorporated to considerably reduce their computational cost without sacrificing too much accuracy. In this work, we leverage the computation methods for kernel machines to alleviate the high computational cost and introduce Skyformer, which replaces the softmax structure with a Gaussian kernel to stabilize the model training and adapts the Nystr\"om method to a non-positive semidefinite matrix to accelerate the computation. We further conduct theoretical analysis by showing that the matrix approximation error of our proposed method is small in the spectral norm. Experiments on Long Range Arena benchmark show that the proposed method is sufficient in getting comparable or even better performance than the full self-attention while requiring fewer computation resources.


翻译:另一方面,尽管内核机器在双点产品中也存在同样的计算瓶颈,但一些近似方案已经成功纳入,以大幅降低计算成本,同时又不牺牲过多的精确度。 在这项工作中,我们利用内核机器的计算方法来减轻高计算成本,并引入Skyexon,用高斯内核来取代软体结构,以稳定模型培训,并使Nystr\'om方法适应非阳性半半成型矩阵以加速计算。我们进一步进行理论分析,通过显示我们拟议方法的矩阵近似错误在光谱规范中很小。 长区域实验显示,拟议的方法足以比全部自留能力更具有可比性或更好的性能,同时需要较少的计算资源。

0
下载
关闭预览

相关内容

专知会员服务
36+阅读 · 2021年5月12日
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
10+阅读 · 2021年2月9日
专知会员服务
51+阅读 · 2020年12月14日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
3+阅读 · 2018年11月11日
VIP会员
相关VIP内容
专知会员服务
36+阅读 · 2021年5月12日
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
10+阅读 · 2021年2月9日
专知会员服务
51+阅读 · 2020年12月14日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员