MM2020 | 基于对抗学习的个性化标签推荐

2021 年 10 月 18 日 机器学习与推荐算法

嘿，记得给“机器学习与推荐算法”添加星标

本文分享一篇利用对抗学习的思路来进行个性化标签推荐的文章，其已经发表于2020年的ACM Multimedia（MM）会议上，MM会议是CCF推荐国际学术会议中计算机图形学与多媒体类别中的A类会议。

该文宏观的想法就是在为图片进行标签推荐（标签分类）的时候，不仅考虑了图片本身的视觉特征，同时还考虑了用户历史的偏好信息。更具体的，就是利用基于对抗学习的Encoder-Decoder框架来进行端到端的训练。值得注意的是，本文中所提到的两个小的技巧同样引起了我的注意，在此一并向大家进行分享。

动机

传统的多标签推荐问题只关注于图片的视觉特征，但往往不同的人看同一张图片时会有各自倾向的标签，因此本文在进行多标签推荐任务时，将用户的个人偏好信息建模其中。

更直观的说，下文中举了从YFCC100M数据集中提取出的图片，可见a和b图像，c和d图像在视觉观感上是相似的，但其匹配的标签却是不同的。因此，对于图片的标签推荐来说，涉及到用户、图像和标签三者的关系。传统的任务只考虑了图像和标签的关系，这就导致了标签的建模只依赖于图片的视觉特征。往往在为用户进行标签推荐的过程中，除了图像本身的视觉特征外，个人的偏好因素同样应该被建模其中。

贡献

本文提出了一个端到端的基于个人偏好和视觉特征的标签推荐框架，其通过无监督的训练方式基于带有残差的Encoder-Decoder来进行用户偏好特征的提取，然后结合视觉特征来共同进行标签推荐任务。
在进行标签推荐任务的过程中引入了对抗学习的机制来提高标签预测的性能，通过引入对抗训练，使得模型可以生成更加类似于人类标记的行为，以此学到更加鲁班的特征表示。
本文通过在YFCC100M和NUS-WIDE数据集上进行测试显示了其方法的优越性，同时通过消融实验验证了所提出组件的有效性。

模型结构

本文的模型结构主要分为三个组件，①用户偏好建模；②视觉特征建模；③个性化标签推荐建模。通过三个组件联合优化最终达到端到端优化的目的，输入一张图像以及该用户的历史标签记录，通过用户偏好组件抽取的用户特征以及视觉编码组件抽取的视觉特征进行拼接，然后送入个性化标签分类器，最终依靠Cross-entropy loss、Adversarial loss、Discriminator loss以及Personalized loss来进行模型的参数学习。接下来将对三个组件一一进行介绍。

1. 用户偏好建模

用户偏好建模方面（标黄部分）是采用的无监督学习的方式来重构用户的历史标签记录，利用Encoder-Decoder框架来进行表示学习。在此主要有2个创新点供我们学习和借鉴，其一是在Encoder-Decoder框架基础上引入了残差模型；其二是采用了HUber loss。这两个创新点都是为了学到更好的用户特征表示。

其中，Auto-Encoder模块的Encoder部分将用户历史标签信息作为输入，输出该用户的低维表示；然后中间表示经过Decoder部分来还原出原始的用户历史标签记录。作者认为传统的Auto-Encoder框架会存在如下挑战：即如果两个不同的用户经过Encoder之后生成类似的中间表示，那么Decoder就很难将其区分开并且学到有区分的表示。基于此，提出了带有残差的Auto-Encoder框架，即将Encoder部分的用户历史信息（文中称为user history encodings）传递至Decoder过程，这样就可以在解码的过程中记住原始的该用户信息，为后续学到有区分的特征提供了基础。另外，为了进一步的获得更有效的用户表示，作者利用了Huber loss：

即如果两个向量之间的距离小于阈值时，用原始的平方损失；如果两个向量之间的距离大于阈值就用带有参数的绝对值损失。因为即使对于两个不同用户有着相似的标签行为，对于用户的原始标签记录来说也会存在较大的变化（比如频率），因此通过huber loss来对其进行缓解。

2. 视觉特征建模

视觉特征建模方面（下图标黄部分）主要采用了视觉主流模型Resnet来进行特征抽取，随后将得到的视觉特征与用户低维表示拼接后送给个性化推荐分类器进行最终的分类任务。其中视觉特征建模部分为了学到更类似于人类打标签行为的模式，提出了基于对抗学习的标签分类方法，即将生成器生成的标签与人工标注的标签送给判别器来进行区分以此学到更强大的判别器，随后生成器通过模拟人工标签的习惯来尽可能的骗过判别器以此来学习更强大的生成器，最终使得学到的特征更加符合人工的行为习惯，同时可利用生成器来生成近似于人打标签行为的数据。在此，由于生成器生成的标签是0到1之间连续的数值，而人工真实标注的标签是非0即1的离散值，因此判别器很容易将其区分开。为了缓解这样的情况，作者利用了Jittering trick，即对人工的标签进行随机化，使得原来是1的标签现在变为0.7到1之间的实数，原来是0的标签现在变为0到0.3的实数，这样使得判别器尽可能的学习真实的用户行为还是机器行为，而不是简单的通过判断数据的形式来进行分类了。

视觉特征建模部分的对抗学习方式主要是由generator loss和discriminator loss组成，即generator loss尽可能使得生成器骗过判别器（即将生成器生成的标签尽可能的识别为真正的用户标签），而discriminator loss则尽可能的识别出该标签是机器生成的还是用户真实标注的，最终达到生成器能够生成类似于人工标注的图片，而判别器无法正确做出区分。

3. 个性化标签推荐建模

个性化标签推荐建模方面（下图标黄部分）主要采用了交叉熵损失来进行训练。

实验部分

下图列举了文中所对比的方法，以及所用数据集和评价指标。

可见，本文所提出的方法在多个数据集上以及评价指标上都是最优的性能。

文中做了消融实验，证明了所提出的Skip Connection以及Huber loss确实起到了积极作用。并且还探索了对抗训练增加的方式以及冷启动的实验效果。

通过对用户历史标签的变化进行模拟，可见该方法随着用户历史标签的变化，给对应用户所见到的图片推荐的标签也随着时间变化（标签的变化）而产生了相应的变化，证明了所提出方法能够捕捉用户的标签行为偏好演变。

讨论

个人觉得本文最重要的创新是提出一种结合视觉特征抽取与个人偏好的多标签推荐算法，较好的将打标签问题建模为了特征提取与偏好学习的问题，使得对于同一副图像能够标记出个性化的多标签内容。
第二个值得关注的创新点是多标记生成问题，以往的多标签是人工进行标注，但常常会存在千差万别的情况，因此本文利用对抗学习的思想利用机器学习模型来学习用户真实的偏好，以此来解放宝贵的标记时间。
第三个比较吸引我的点是该文利用了许多巧妙的小技巧来提升训练精度。比如文中提到的Jittering trick 和Huber loss，可谓是simple yet effective。
最后想说本文关于多标记生成过程中的扩展想法，目前在生成的时候没有考虑标记之间的关系，未来可以引入标签关联矩阵来进一步的提高生成性能。