蘑菇街推荐算法之迷——Self Attention不如Traditional Attention？

会员服务 ·

蘑菇街推荐算法之迷——Self Attention不如Traditional Attention？

2020 年 10 月 14 日 机器学习与推荐算法

嘿，记得给“机器学习与推荐算法”添加星标

来自 | 微信公众号

作者 | 诗品算法

链接 | mp.weixin.qq.com/s/vh615QP6gAvrXtrMqN3m4g

楔子

说好要经常更新，一定要坚持下来！前段时间在蘑菇街首页推荐视频流场景测试deep模型结构时，发现self attention的效果居然不如简单的traditional attention！问题出在哪里？

注意力机制

作为一种资源分配方案，将计算资源分配给最重要的任务。注意力是人类与生俱来不可或缺的认知功能。我们在日常生活中，会通过嗅觉、触觉、听觉、视觉感受到来自四面八方不同信息的鱼贯涌入，而我们却能在如此繁杂的信息轰炸中，区分主次，并挑选出最重要的信息进行加工处理，同时忽略其他不重要的信息。这种能力就是注意力。比如，查理.芒格可以做到专注地读书而不受到任何外界环境的干扰。这就是具有极强专注力的体现，相信多数读者在工作或阅读中也有此种体会。

self-attention回顾

在开始实践之前，有必要先简要回顾一下火遍宇宙的self-attention。下面是我迄今为止看到的最易懂的描述，参考邱锡鹏老师的《神经网络与深度学习》。我会结合推荐系统的场景对其进行叙述。用表示N组输入向量，其中每个向量都表示一组输入信息。注意力机制的计算分为两个步骤：1、在所有输入信息上计算注意力分布；2、根据注意力分布计算输入信息的加权平均。在推荐场景，表示用户的个历史行为序列（可以是点击序、加购序、成交序等等），则表示序列中每一个元素的embedding表达。

注意力分布

为了从输入向量（历史序列）中选择出和特定任务（待排视频内容）相关的信息，我们需要引入一个与任务相关联的表示，称为查询向量（Query Vector），并通过打分函数来计算每个输入向量与查询向量之间的相关性。

给定一个Query vector：，我们用注意力变量来表示被选择信息的索引位置，即，表示选择了第个输入向量。在这里，我们选择“soft”信息选择机制，计算在给定和的情况下，选择第个输入向量的概率：

其中，就是注意力分布（Attention Distribution），就是注意力打分函数，这种函数的计算方式有以下几种，这些我们都有尝试过，后面会给出实验结论。

其中，均是可学习的参数，是输入向量的维度，也就是的维度，一般是128维／64维／32维，最优值可以根据实际情况选择。理论上，当较小时，加性模型和点积模型的复杂度无差，但是点积模型可以更好地利用矩阵乘积，因此计算效率更高。

但是，若输入向量的维度比较高时，点积模型的方差会较大，从而导致softmax函数的梯度较小（softmax后非0即1，无信息量）。缩放点积模型就可以很好地解决这个问题，使内积不至于太大。双线性模型实际上是一种泛化的点积模型，假设，则，双线性模型可以写成：，太有意思了！这相当于分别对和进行线性变换后计算点积。双线性模型的优势是，在计算相似度时，引入了非对称性。

加权平均

注意力分布是在给定任务相关的查询时，第个输入向量受关注的程度。我们采用一种“soft”的信息选择机制，对输入信息进行merge。软性注意力机制如下：

由此可见，选择的信息是所有输入向量在注意力分布下的期望。

Attention

熟悉的图，熟悉的公式，熟悉的attention。当我们的打分函数为缩放点积模型时，attention如下：

公式与Google论文里一致。其中，，，，由queryies和keys组成的输入维度均为，values的维度为。如果忽略softmax的话，attention本质上就是三个的矩阵相乘，结果就是一个的矩阵，attention实际上就是将的输入序列编码成一个的输出序列。

self-attention

对于self-attention来讲，三个矩阵均来自同一输入。

traditional attention

与self-attention相比，这个公式就简单多了。输入经过两层全连接，再经过softmax，与原始的寄己进行点乘（非矩阵乘法）。输入序列的两两元素之间无任何交互。

推荐阅读

知识蒸馏与推荐系统概述

一种新颖的推荐系统重训练技巧

再评Airbnb的经典Embedding论文

喜欢的话点个在看吧👇

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

李航等最新《搜索与推荐中的深度学习匹配》新书，190页pdf

专知会员服务

208+阅读 · 2020年9月6日

基于旅游知识图谱的可解释景点推荐

专知会员服务

93+阅读 · 2020年9月4日

【KDD2020-阿里】可调控的多兴趣推荐框架

专知会员服务

29+阅读 · 2020年8月11日

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

专知会员服务

33+阅读 · 2020年8月7日