【南洋理工大学】注意力神经网络,Attention Neural Networks,78页ppt

【导读】本教程是南洋理工大学CE7454: Deep Learning for Data Science中的一章,作者Xavier Bresson介绍了注意力神经网络。



内容介绍


神经网络 :神经网络根据结构可以分成全连接神经网络(MLP/FC)、卷积神经网络(ConvNets)、与循环神经网络(RNN)。MLP的特点是输入输出的大小时固定的,只适用于线性数据。ConvNets的输入是网格结构,输入的大小也可以改变,在计算机视觉领域有很多应用。RNNs的输入是序列结构,能处理不同长度的序列。它的局限性在于,无法处理过长的数据(50以上),并且处理速度很慢(无法并行处理序列数据)。


集合数据的神经网络:在处理集合数据时,神经网络因不受元素的下标与集合大小的影响。Pooling操作,与SIFT、Word2Vec等都适合在集合数据上应用。注意力操作也适合在集合上运用。


记忆网络:记忆网络的主要思想是需要利用长时的记忆,又可被称为多跳注意力网络.


Transformer: 记忆网络效果强大,但不是突破性的,Transformer是注意力网络的有效形式,它不仅在自然语言处理领域,而且在广义的集合数据上,都是最佳的网络结构。与记忆网络相比,它的优势在于:1. 有多个隐层 2. 多头attention 3. 残差结构


序列到序列Transformer: 序列到序列Transformer即encoder与decoder都是Transformer的结构。它考虑了输入与输出序列之间的注意力。


语言模型Transformer:自然语言处理的基本问题是学习词的表示,并能够根上下文灵活变化,终极目标是能够理解语言。2019年自然语言处理的发展趋势是在大语料库中预训练语言模型,如ELMo,BERT,GPT2等,然后迁移到新的任务中去。


图神经网络Vs 注意力神经网络 图神经网络与注意力网络的联系在于,图神经网络需要预先给定数据之间的关联信息,注意力预先不知道数据之间的关联,而是尝试去发现它。当每个数据点之间两两有边(关系)时,图神经网络与注意力网络是一致的。


代码地址:

https://github.com/xbresson/CE7454_2019/blob/master/codes/labs_lecture13/seq2seq_transformers_demo.ipynb


请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“ANN” 就可以获取所有《注意力神经网络》下载链接~ 


内容预览


更多关于“注意力神经网络Attention Neural Networks”的论文教程等资料,请登录专知网站www.zhuanzhi.ai, 查看


https://www.zhuanzhi.ai/topic/2001413533146763/paper



-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,或者点击“阅读原文”使用,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加), 获取专知VIP会员码 ,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,注册使用专知
展开全文
Top
微信扫码咨询专知VIP会员