我们引入蒙特卡罗注意力(MCA),这是一种用于降低Transformer架构中自注意机制的计算成本的随机近似方法。MCA利用了输入序列中每个标记的重要性随它们的注意力分数而变化的事实;因此,当编码低关注度的标记时,一定程度的错误是可以容忍的。利用近似矩阵乘法,MCA应用不同的误差边界对输入标记进行编码,使得那些注意力得分较低的标记的计算精度较低,而显著元素的误差最小。MCA可以与其他注意力优化方案并行运行,且不需要修改模型。我们研究了理论误差范围,并证明了在GLUE基准中,MCA将各种Transformer模型的注意力复杂度(FLOPS)降低了11倍,而不影响模型精度。
https://www.zhuanzhi.ai/paper/6b33480c8d45b3826128eb0c336d1070