【干货】近年火爆的Attention模型，它的套路这里都有！

会员服务 ·

【干货】近年火爆的Attention模型，它的套路这里都有！

2017 年 12 月 28 日 机器学习研究会

【文末有彩蛋！】

推荐阅读时间：8min~13min

主要内容：简介明了的讲解一些Attention Model的套路和理论

---------------------------------------------

作者：YBB

单位：清华大学研究生

Attention 的本质

attention其实就是一个加权平均。

attention处理的问题，往往面临的是这样一个场景：

Attention的设计

如何计算得到alpha(i)，一般分为两个步骤：

那么如何设计step 1中的打分函数 f呢，在论文”Dynamic Attention Deep Model for Article Recommendation by Learning Human Editors’Demonstration”中的Attention Mechanism章节给了较为全面的概括。大体分为三类：

其中General Attention并不常见，（可能笔者读的paper不够多，目前还没有遇到过）因此在这里不做介绍。接下来详细介绍下Location-based Attention和Concatenation-based Attention的设计。

2.1 Location-based Attention

具体我们来举几个例子，可能具体实现上，有略微区别，不过都大同小异：

Example 1：A Context-aware Attention Network for Interactive Interactive Question Answering_KDD2017

Example 2：Dynamic Attention Deep Model for Article Recommendation by Learning Human Editors’ Demonstration_KDD2017

2.2 Concatenation-based Attention

转自：机器学习算法与自然语言处理

完整内容请点击“阅读原文”

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

229+阅读 · 2020年6月5日

【知识图谱嵌入补全综述论文】embedding models for knowledge base completion

专知会员服务

102+阅读 · 2020年4月25日

【干货书】深度学习计算机视觉，332页pdf，手把手教你Python学习CV

专知会员服务

201+阅读 · 2020年3月31日