注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。

正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。

http://web.stanford.edu/class/cs224n/index.html#schedule

成为VIP会员查看完整内容
61

相关内容

【斯坦福CS224N硬核课】 问答系统,陈丹琦讲解,79页ppt
专知会员服务
73+阅读 · 2021年2月23日
专知会员服务
37+阅读 · 2021年2月22日
【斯坦福CS224W】知识图谱推理,84页ppt
专知会员服务
120+阅读 · 2021年2月19日
专知会员服务
66+阅读 · 2021年2月17日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
104+阅读 · 2020年8月30日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
46+阅读 · 2020年8月19日
斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享
深度学习与NLP
7+阅读 · 2019年1月14日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
斯坦福:「目标检测」深度学习全面指南
人工智能学家
8+阅读 · 2017年10月11日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
9+阅读 · 2018年10月24日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
VIP会员
相关主题
相关VIP内容
【斯坦福CS224N硬核课】 问答系统,陈丹琦讲解,79页ppt
专知会员服务
73+阅读 · 2021年2月23日
专知会员服务
37+阅读 · 2021年2月22日
【斯坦福CS224W】知识图谱推理,84页ppt
专知会员服务
120+阅读 · 2021年2月19日
专知会员服务
66+阅读 · 2021年2月17日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
104+阅读 · 2020年8月30日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
46+阅读 · 2020年8月19日
相关论文
Arxiv
19+阅读 · 2020年12月23日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
9+阅读 · 2018年10月24日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
微信扫码咨询专知VIP会员