文链接:https://arxiv.org/pdf/2009.14794.pdf
Performer 使用一个高效的(线性)广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+( Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的 softmax 运算。此外,该方法还可以和可逆层等其他技术进行互操作。
研究者表示,他们相信该研究为注意力、Transformer 架构和核方法提供了一种新的思维方式。
代码地址:https://github.com/google-research/google-research/tree/master/performer
论文公布之后,Youtube 知名深度学习频道 Yannic Kilcher 对该文章进行了解读。