【推荐】RecSys 2017深度总结

2018 年 3 月 19 日 LibRec智能推荐 董振华

今年的ACM RecSys在美丽的科莫湖畔举办，本文将从会议总览，推荐系统技术与发展趋势，个人观感三个方面介绍本次大会。

会议总览

今年的RecSys接收26篇long paper（接收率：20.8%），20篇short paper（接收率：16.4%），研究内容覆盖human factor, algorithms, ranking, diversity, privacy等主题。由于没有像去年举办的RecSys那样限制参会人数，本次会议的与会者历史性地超过了600人，来自欧洲、中东和非洲等地区的参会人数明显增加。RecSys得到了工业界一如既往地重视，Google，Facebook，Microsoft，Criteo，Spotify，Apple，Amazon，Hulu以及阿里、百度、华为都派出了为数不少的推荐团队参会，其中，华为也是本次RecSys的铂金赞助商。在industry track中，工业界贡献了3个session，12个talk，演讲者来自微软，Netflix，LinkedIn，EA，AirBnB，以及一些Startup公司。

趋势与技术

1. 对话式推荐

本次RecSys让我愈加相信：通过对话的方式（语音或文本输入）为用户提供内容的搜索、推荐和发现服务，将会成为推荐的主流形式。目前，业界已经有较为成型的产品，如Echo，Apple Siri，京东小咚等。本次会议相关研究包括2篇研究论文和1个keynote，下面分别对其进行解读：

Short paper：“Defining and supporting narrative-driven recommendation”是来自心理学家的研究，给出了叙述式推荐请求的定义，分析该类型推荐的组成成分，并对用户的叙述式需求进行了分类，最后通过对读书论坛帖子数据的量化分析，计算叙述式推荐请求的普遍程度，以及各种需求类型的占比。

Long paper：“Understanding how people use natural language to ask for recommendations”，这是一项典型的GroupLens style研究工作，作者通过user study实验收集用户陈述电影推荐需求的文本数据，进而分析用户的一次请求和二次请求的类别，比较文本输入和语音输入的差异，最后针对对话式推荐的系统设计给出如下建议：

（1）在实施推荐前，对用户陈述的需求意图进行分类，大致可以分为客观、主观、导航三类；分情况给予推荐服务，如客观意图（如用户叙述为“关于二战的电影”，二战电影为客观词汇）：根据陈述中的客观词汇过滤推荐结果；如主观意图（如用户叙述为“关于二战的电影，但不要过于血腥”，不要过于血腥味主观词汇）：根据主观词汇进行排序；如导航（“如用户叙述为我想看兵临城下”，兵临城下为用户直接想要的结果）：像搜索一样直接返回搜索词的相关列表。

（2）对用户二次陈述的推荐意图分类，大致分为两类refine和start over，分情况给予推荐服务，如refine：在第一轮推荐结果的基础上根据二次陈述中的限定条件予以过滤，或给予用户更多查询选型(suggested tags)；start over：当二次陈述与一次陈述无关式进行重新查询。

（3）鉴于本研究发现的用户使用语音输入与文本输入的不同之处，系统设计者需要考虑这个问题：使用文本输入的数据集作为热启动数据，构建面向语音输入形态的对话推荐是否合理？

这篇文章是human factor领域的典范研究，更多地从人的角度研究推荐，值得我们学习。

Keynote：Memory networks for Recommendation，来自于Facebook AI research的科学家Jason Weston，他的合适观点是推荐即对话，而Machine learning end-to-end system是终极解决方案，其中memory network是其中最为关键的技术。Jason介绍Facebook AI团队近年来在智能对话方面的的研究成果，最后着重介绍了Fackbook开源的对话研究平台：ParlAI，提供了对话研究和实现的框架，可以训练和评估dialog agent，开源了对话相关的数据集和算法，还能与Amazon Mechanical Turk无缝对接。相信ParlAI可以大力推动智能对话和对话式推荐研究的进展，此处要给Facebook掌声。

2. 深度学习

如果说深度学习的研究在去年的RecSys会议只是牛刀小试（请参考我的另一篇文章2016 RecSys参会总结：www.douban.com/note/583716751），那么深度学习已经成为了今年RecSys最受关注、论文收录最多的研究主题，会议包含了关于深度学习的1个tutorial，1个workshop，1个keynote，收入近20篇深度学习相关论文。研究方向主要包括：item embedding，deep collaborative filtering， feature extraction，session-based recommendation等。

Telefonical research 的主任研究员Alexandros带来了主题为deep learning for Recommendation systems的tutorial, 说明了深度学习在推荐系统应用的优势，主要包括自动抽取复杂域的特征，如图像、声音、文本等；善于处理异质数据；RNN能够较好地对动态或序列行为建模；可以用于用户和商品的新型表达学习方式。这个Tutorial也是目前我见过的最全面的面向推荐系统的深度学习技术的总结，这是该tutorial slides的下载链接：

https://www.slideshare.net/kerveros99/deep-learning-for-recommender-systems-recsys2017-tutorial。

本届RecSys值得关注的深度学习论文还包括：

Getting Deep Recommenders Fit: Bloom Embeddings for Sparse Binary Input/Output Networks
Interpretable Convolutional Neural Networks with Dual Local and Global Attention for Review Rating Prediction
When Recurrent Neural Networks meet the Neighborhood for Session-Based Recommendation
Recommendation of High Quality Representative Reviews in e-commerce
Personalizing Session-based Recommendations with Hierarchical Recurrent Neural Networks
Sequential User-based Recurrent Neural Network Recommendations
Deep Cross-Domain Fashion Recommendation
Boosting Recommender Systems with Deep Learning

3. 隐私

隐私保护是所有大数据应用都要面对的问题，推荐系统作为大数据应用中最重要的方向之一，亟需解决如何在保护用户隐私的前提下，为用户提供精准推荐？另一个重要背景是欧盟通过了General Data Protection Regulation（GDPR）法案，将于18年5月25日正式实施，该法案旨在保护欧盟公民的数据隐私，规范组织使用用户数据的方式、方法。这一法案需要引起志在出海的中国科技巨头们的关注。今年的RecSys涉及隐私相关研究的内容包括1个keynote，1个tutorial,以及一篇long paper：secure multi-party protocols for item-based collaborative filtering。

一些经典的模型和方法得到了更加深入的研究，在FM：an elementary view on factorization machine一文中，作者指出了经典FM优化的一些问题和bad case，并尝试用非对称优化的方法解决。在learning to rank相关应用中，RankSVM和LambdaMART模型已经成为了标准的基线方法。一些研究聚焦于推荐系统在特定domain下应用，如时尚产品推荐，游戏推荐，健康建议推荐等。

4. 来自资深专家的声音

在plenary panel discussion环节，会议邀请了RecSys领域最资深的4位专家讨论推荐系统的现状和未来，他们分别是：

明尼苏达大学GroupLens实验室等Joe Konstan教授（ACM RecSys缔造者之一，也是第一届RecSys的主席）
Xavier Amatriain（Netflix的推荐系统的前任负责人，Quora的前任技术VP）
匹兹堡大学的Peter Brusilovsky教授（用户建模，交互式推荐的资深专家）
明尼苏达大学等George Karypis教授（数据挖掘，推荐系统模型，高性能计算等领域顶尖的研究者，也是WWW会议历史引用数第二高论文item-based CF recommendation algorithms的作者之一）。

下面简述几位专家对RecSys 会议的期望：系统设计者需要考虑。

Xavier：我们应该更多地鼓励公开数据集；我们需要更多地支持开源初始化的工作；增加工业界在RecSys会议和community的影响力；RecSys是否应该从ACM／SIGCHI独立出来，形成自己独立的社区？
George：不希望ACM RecSys成为另一个KDD，ICML或者BigData会议，研究要有推荐系统关联的insight。希望RecSys能过一如既往地强调用户建模和领域建模；希望推荐系统研究能够整合来在心理学，经济学，教育和市场营销方面的理论研究；聚焦解决那些难的问题，如评价，公平等；工业界积极地参与，以及创新的应用领域。
Joe提出一个有趣的建议，他希望RecSys会议未来的审稿过程可以这样：投稿人在做研究前，先将研究计划书提交给评委，由评委决策该研究是否适合RecSys会议，并给予指导意见，投稿人再根据意见重新设计研究主题，制定计划，进行研究。这样可以让投稿的论文与RecSys的主题更加契合，也可以节省审稿者和投稿人的时间。

个人观感

不知不觉，ACM RecSys已经举办了11届，听Joe Konstan教授讲起，首届RecSys 2007还是在密西西比河右岸明尼苏达大学的图书馆举办，Joe是那届会议的主席，John Riedl教授是程序委员会主席，那时参会的人数很少，赞助商也只有4家。十年之间，随着互联网、电子商务技术的蓬勃发展，个性化技术越来越普及，推荐系统成为了科技公司的核心竞争力，而如今的ACM RecSys已经成为了最受欢迎的学术会议之一，而推荐系统研究的先驱，GroupLens实验室的创始人John Riedl教授也离开了我们……

回想自己在2007年读研一时，通过电子报纸项目认识到个性化推荐的重要作用，通过阅读了相关论文和谷哥的博客Beyond Search，了解推荐系统的研究进展和工业界应用现状；用MovieLens数据集做最经典的user based KNN实验室；从豆瓣上爬取电影、图书、唱片的元数据以及用户对它们的评分数据，实现各种经典的推荐算法，并用在跨域推荐领域；因为醉心于推荐系统，所以我会从天津到北京，参加RecSys China组织的线下活动，第一次是在奇遇咖啡馆，项亮介绍Netflix prize百万美元竞赛使用的预测技术，第二次是在豆瓣总部，听王守崑介绍豆瓣的推荐系统；后来有机会去GroupLens实验室交流学习，在Riedl，Loren，Shilad教授的指导下从事human factor方面的研究，并用第一手的MovieLens和Wikipedia数据集做实验，提炼有趣研究问题，撰写有影响力的论文。

在GroupLens的经历，教会了我很多：什么才是有价值的研究？做什么样的研究？如何做研究？如何与别人合作共赢？那也是我最快乐的一段时光，因为我与最优秀的人一起共事，坚信自己做着改变世界的事情。回国完成博士学业后，加入华为诺亚方舟实验室，做面向工业界的推荐系统，直接为用户提供个性化推荐服务，很幸运，工作期间先后得到了杨强老师，戴文渊，李航老师，林智仁老师，何秀强的帮助和指导，并将我们构建的推荐系统在华为最主要的产品线上应用落地，并在实际产品中不断实践新的模型算法、系统平台和推荐策略，在为公司创造价值的同时用活的数据和真实推荐场景验证新的技术，让预研与应用形成良性互补。

想来自己作为研究者，是幸运的，可以在一个领域专研十年，有幸能与这个领域最优秀的专家、学者共事，在学术方面，做有趣的、前瞻性的研究，在工业界，使用推荐系统技术实现了大数据价值的变现，在提升用户体验的同时，为公司赚取真金白银。

因为推荐系统，让我有机会结识了很多志同道合的师长、朋友，今年的ACM RecSys，很高兴见到了很多故人、旧友，同时也结交了不少新的朋友，收获了很多新的想法和深刻的见解，感觉人生又完满了些。最后，祝福RecSys越办越好，我也会为RecSys的发展多做贡献，RecSys 2018，温哥华见！

作者简介

董振华：南开大学与明尼苏达大学联合培养博士生，现任华为诺亚方舟实验室主任研究员，研究方向为推荐系统、机器学习应用和社会计算，电子邮箱：65974293@qq.com。目前负责华为终端内容推荐系统，为数以亿计的华为终端用户提供个性化的内容和服务推荐。希望与业界同仁多交流，相互学习，共同进步。