替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！ - 专知VIP

会员服务 ·

2

Transformer · Performer · 注意力机制 ·

2020 年 10 月 29 日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

文链接：https://arxiv.org/pdf/2009.14794.pdf

Performer 使用一个高效的（线性）广义注意力框架（generalized attention framework），允许基于不同相似性度量（核）的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+（ Fast Attention Via Positive Orthogonal Random Features）来实现，后者能够提供注意力机制的可扩展低方差、无偏估计，这可以通过随机特征图分解（常规 softmax-attention）来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证，也可以应用到独立的 softmax 运算。此外，该方法还可以和可逆层等其他技术进行互操作。

研究者表示，他们相信该研究为注意力、Transformer 架构和核方法提供了一种新的思维方式。

代码地址：https://github.com/google-research/google-research/tree/master/performer

论文公布之后，Youtube 知名深度学习频道 Yannic Kilcher 对该文章进行了解读。

成为VIP会员查看完整内容

43

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【斯坦福】距离编码-为结构表示学习设计更强大的GNN.

专知会员服务

45+阅读 · 2020年9月3日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【IJCAI2020南大】上下文在神经机器翻译中的充分利用

【IJCAI2020南大】上下文在神经机器翻译中的充分利用

专知会员服务

16+阅读 · 2020年8月17日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知会员服务

112+阅读 · 2019年11月25日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

一文详解Google最新NLP模型XLNet

一文详解Google最新NLP模型XLNet

PaperWeekly

18+阅读 · 2019年7月1日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

NLP预训练模型大集合！

NLP预训练模型大集合！

黑龙江大学自然语言处理实验室

6+阅读 · 2018年12月31日

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

机器之心

5+阅读 · 2018年5月21日

Longformer: The Long-Document Transformer

Arxiv

2+阅读 · 2020年12月2日

Denoising Pre-Training and Data Augmentation Strategies for Enhanced RDF Verbalization with Transformers

Arxiv

0+阅读 · 2020年12月1日

Adaptive Compact Attention For Few-shot Video-to-video Translation

Arxiv

0+阅读 · 2020年11月30日

General Multi-label Image Classification with Transformers

Arxiv

1+阅读 · 2020年11月27日

Rethinking Attention with Performers

Arxiv

3+阅读 · 2020年9月30日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Hardness-Aware Deep Metric Learning

Hardness-Aware Deep Metric Learning

Arxiv

6+阅读 · 2019年3月13日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

VIP会员

相关主题

注意力机制

相关VIP内容

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【斯坦福】距离编码-为结构表示学习设计更强大的GNN.

专知会员服务

45+阅读 · 2020年9月3日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【IJCAI2020南大】上下文在神经机器翻译中的充分利用

【IJCAI2020南大】上下文在神经机器翻译中的充分利用

专知会员服务

16+阅读 · 2020年8月17日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知会员服务

112+阅读 · 2019年11月25日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】《知识图谱与大语言模型的协同应用》，544页pdf

军事通信系统：安全行动的支柱

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

【新书】机器学习系统，2620页pdf

相关资讯

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

一文详解Google最新NLP模型XLNet

一文详解Google最新NLP模型XLNet

PaperWeekly

18+阅读 · 2019年7月1日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

NLP预训练模型大集合！

NLP预训练模型大集合！

黑龙江大学自然语言处理实验室

6+阅读 · 2018年12月31日

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

ICLR 2018 | CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

机器之心

5+阅读 · 2018年5月21日

相关论文

Longformer: The Long-Document Transformer

Arxiv

2+阅读 · 2020年12月2日

Denoising Pre-Training and Data Augmentation Strategies for Enhanced RDF Verbalization with Transformers

Arxiv

0+阅读 · 2020年12月1日

Adaptive Compact Attention For Few-shot Video-to-video Translation

Arxiv

0+阅读 · 2020年11月30日

General Multi-label Image Classification with Transformers

Arxiv

1+阅读 · 2020年11月27日

Rethinking Attention with Performers

Arxiv

3+阅读 · 2020年9月30日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Hardness-Aware Deep Metric Learning

Hardness-Aware Deep Metric Learning

Arxiv

6+阅读 · 2019年3月13日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

微信扫码咨询专知VIP会员