利用对抗技术来权衡推荐精度与用户隐私

2020 年 6 月 15 日 机器学习与推荐算法

前言

任何需要做两方权衡并且最终寻求一种平衡的问题其实都可以转化为对抗学习的范式，比如图像生成任务中既要保证生成图片的质量又要确保判别器的识别精度；推荐任务中既要保证用户的隐私不受侵害又要确保推荐质量的可靠。

最近腾讯广告算法大赛的题目是 用户人口统计学属性预测，即通过用户在广告系统中的交互行为来预测用户的人口统计学特征，比如性别和年龄。目前排行榜中第一的准确率已经达到了1.4左右，也就是说预测性别和年龄的准确率基本在0.7左右，当然预测性别属性相比年龄属性要容易些，因为年龄是个10分类任务，要比2分类任务难得多。本人也利用课余时间参加了这次比赛，不过成绩不理想，在1.2左右，害，还是要加油啊。通过这次竞赛发现，拼到最后更需要的是 对业务背景的深度理解，对实验机器的极其渴望，以及 对日渐稀少的头发的十分想念。

看到以上内容不禁让人感到害怕，通过在系统中留存的行为信息就能知道我是男是女，是老是少了，我的天，普通用户的隐私何在。那么今天就跟大家分享一篇利用对抗学习技术来保护用户属性信息的同时能够得到精准推荐结果的文章，题目为《 Privacy-Aware Recommendation with Private-Atribute Protection using Adversarial Learning》，该工作已发表在2020年的WSDM会议上。

动机

推荐系统是帮助用户匹配与其兴趣相关的物品的关键应用之一。但是，恶意攻击者可以通过推荐系统推断用户的私人信息。之前的工作都是将用户-项目交互数据进行混淆之后再提供给推荐系统使用，这种方法虽然达到了隐私的目的，但会存在推荐精度的损失，并且不能对用户的私有属性信息进行隐私保护。

因此该文章首次提出了在 保证推荐精确度的同时保护用户的人口统计学特征。该方法主要是将以上问题建模为带有两个组件的对抗学习模式，即私有属性攻击者（PAA）与贝叶斯个性化推荐器（BPR）。攻击者PAA试图根据用户的项目列表推断其私人属性信息；推荐器BPR的目的是在利用攻击者作为推荐的正则项的同时，挖掘用户的行为偏好。实验表明，该模型既可以保证推荐服务的质量，又可以保护用户免受私有属性推断的攻击。

框架

当明确了对抗学习的基本思想之后，就不难理解其所提出的框架了（如下图所示）。该框架主要包括2部分：第一部分为BPR（Bayesian Personalized Recommendation），旨在挖掘用户的行为偏好；第二部分为（PAA）Private Attribute Attacker，旨在推断用户的个人隐私属性信息。通过利用最大最小博弈的方式，来达到推荐精度与用户隐私的平衡。