【导读】本教程是南洋理工大学CE7454: Deep Learning for Data Science中的一章,作者Xavier Bresson介绍了注意力神经网络。
内容介绍
神经网络 :神经网络根据结构可以分成全连接神经网络(MLP/FC)、卷积神经网络(ConvNets)、与循环神经网络(RNN)。MLP的特点是输入输出的大小时固定的,只适用于线性数据。ConvNets的输入是网格结构,输入的大小也可以改变,在计算机视觉领域有很多应用。RNNs的输入是序列结构,能处理不同长度的序列。它的局限性在于,无法处理过长的数据(50以上),并且处理速度很慢(无法并行处理序列数据)。
集合数据的神经网络:在处理集合数据时,神经网络因不受元素的下标与集合大小的影响。Pooling操作,与SIFT、Word2Vec等都适合在集合数据上应用。注意力操作也适合在集合上运用。
记忆网络:记忆网络的主要思想是需要利用长时的记忆,又可被称为多跳注意力网络.
Transformer: 记忆网络效果强大,但不是突破性的,Transformer是注意力网络的有效形式,它不仅在自然语言处理领域,而且在广义的集合数据上,都是最佳的网络结构。与记忆网络相比,它的优势在于:1. 有多个隐层 2. 多头attention 3. 残差结构
序列到序列Transformer: 序列到序列Transformer即encoder与decoder都是Transformer的结构。它考虑了输入与输出序列之间的注意力。
语言模型Transformer:自然语言处理的基本问题是学习词的表示,并能够根上下文灵活变化,终极目标是能够理解语言。2019年自然语言处理的发展趋势是在大语料库中预训练语言模型,如ELMo,BERT,GPT2等,然后迁移到新的任务中去。
图神经网络Vs 注意力神经网络 图神经网络与注意力网络的联系在于,图神经网络需要预先给定数据之间的关联信息,注意力预先不知道数据之间的关联,而是尝试去发现它。当每个数据点之间两两有边(关系)时,图神经网络与注意力网络是一致的。
代码地址:
https://github.com/xbresson/CE7454_2019/blob/master/codes/labs_lecture13/seq2seq_transformers_demo.ipynb
请关注专知公众号(点击上方蓝色专知关注)
后台回复“ANN” 就可以获取所有《注意力神经网络》下载链接~
【内容预览】
更多关于“注意力神经网络Attention Neural Networks”的论文教程等资料,请登录专知网站www.zhuanzhi.ai, 查看
https://www.zhuanzhi.ai/topic/2001413533146763/paper