清华90后学霸揭秘微信推荐算法!从0到1搭建系统架构公开课直播

2020 年 1 月 8 日 新智元



  新智元公开课 

编辑:张佳
【新智元导读】新智元We站全面升级,AI技术公开课第二期1月9日强势来袭!新智元We站全新定位:AI技术干货+B站风格直播!本次公开课聚焦“推荐算法”技术+小程序直播分享+大咖在线互动,特邀清华学霸、腾讯微信人工智能高级研究员阙文晖,手把手教你从0到1快速搭建推荐算法系统架构!戳右边链接上 新智元We站公开课 了解更多!

有没有发现,现在手机越来越懂你,推送的内容总是你想看的,一看就停不下来。其实,这背后是推荐系统的“功劳”。

通过你浏览过的内容、停留的时长、采取的行为等海量数据,再通过一些数学算法推测出你喜欢的内容,然后把这些内容推给你。你获得了想看的内容,而这些内容生产者则获得你的停留时间。这样的双赢,有什么理由拒绝呢?

为了让大家了解“智能推荐系统”,新智元特邀腾讯微信人工智能高级研究员的阙文晖开讲新一期新智元We站公开课,为大家介绍推荐系统架构从0到1
阙文晖:高分考入清华的理科状元,863计划项目核心研发人员

本期公开课的主讲男神阙文晖可是大有来头,他是清华本硕毕业、目前任腾讯微信人工智能高级研究员。他的研究领域主要集中在社交网络人物影响力分析、资源和任务调度管理系统、智能客服系统、个性化音乐推荐等。他是微信7.0版本视频动态配乐推荐核心研发人员。他目前工作聚焦在社群社交产品探索和社群内容流的推荐研发。

最近,阙文晖和我们分享了他是如何走上“推荐系统”这条路的。

2009年,阙文晖毕业于福建省上杭一中。当年高考,他所在高中共有10人被清华大学录取。作为学霸的他理科685分以全县第一名的高分考上了清华大学,选择了清华大学电子工程系 阙文晖之所以选择这个系有两个原因:

第一个原因是,电子工程系是清华状元最多的系,电子工程是在理科中挑战最大的一个专业。学生需要从底层固定物理开始,经历模拟电路数字电路通信电路,到数字逻辑,到微机原理到操作系统到数据结构算法,到网络应用等一系列的知识积累过程。可以说,学习好这些课程,具备了从事任何IT相关岗位的知识基础。

第二个原因是他个人对信息技术的兴趣爱好。文晖表示:“从DOS系统到win95,从从机械按键到iPhone,从自组网到云服务,从规则系统到人工智能系统。信息技术的快速发展,不断出现的定义性体验和服务,都令人畅享下一个定义性的产品和技术。能够投身到这一场技术和产品的盛宴,是令人激动和愿意为之不断努力的动力来源。这也是我选择电子工程系的第二个原因,是我梦想的起航的基石。”

2013年,文晖免试保送清华大学电子工程系新一代互联技术实验室,师从李星和黄永峰教授。研究方向为网络舆情中的意见领袖挖掘。

传统意见领袖挖掘往往采用统计性指标,对意见领袖的传播影响力缺乏系统考虑,对意见领袖和普通人物之间的关系缺乏关联定量分析。研究生期间,他提出了基于构建网络的人物影响力计算算法,采用图计算的方式挖掘网络节点中人物的影响力,并且量化节点人物之间的影响关系,将意见领袖的挖掘从单一的指标统计引入了更为复杂精确的图模型计算框架。这一研究成果发表在核心期刊Computer Engineering and Design。

同样在研究生期间,文晖参与了信息隐藏国家高技术研究发展-863计划,作为核心研发人员首次在信息隐藏和检索中引入RNN算法,相比传统检测算法大幅度提升检测效果。

提前“剧透”:如何做一个优秀的推荐系统?数据、算法、服务乃三大法宝

参与这期新智元小程序公开课你会收获哪些干货?文晖先给大家剧透了一波:

推荐任务的核心目标是帮助用户去更高效地获取信息。完成这个目标,需要借助一些推荐算法,但是仅仅只靠一两个推荐算法是完成不了这个任务的。这也是实际产品推荐和科研任务中推荐算法最大的一个差别。介绍具体的实用业务的推荐,需要从系统的角度去介绍。实用的工业级推荐系统是一个复杂有序配合的系统,是能够适配不同环境下推荐需求的一个动态迭代系统。

一个好的优秀的推荐系统,能够解决系统和个人在数据量剧烈变化中的推荐效果,能够解决算法极限和策略的配合机制,能够解决大规模服务化的稳定高性能。这也是我们推荐系统不断努力的方向,和获得优秀推荐效果的原因所在。

工业推荐系统架构

这样一个系统,重点关注三个问题: 数据,算法,服务

数据,陆奇说当前人工智能领域真正的cliff是什么?不是算法模型,不是服务能力,不是人才资源,而是数据。一个好的有监督的学习,往往需要一份足够大的标注数据,这也是指导模型学习的过往经验。只有过往经验足够的全足够的好,通过数据训练出来的模型才能够能加智能。在小程序推荐业务中,数据的直接来源是小程序内的用户行为数据,比如用户在某个帖子上停留了多长时间,用户点开了这个帖子的大图,用户的点赞,评论和转发行为。针对小程序内的推荐任务,我们认为用户在小程序内的数据为同质数据。依靠这些同质数据,我们是否能够训练得到一个复杂模型呢?理论上讲,在产品初期,少量的同质数据,是难以支撑复杂模型训练的。这种情况下,我们一种解决方案是引入一些异质数据,比如用户的内容阅读行为,我们可能引入其他产品中用户的阅读行为。这是我们系统初期针对系统数据量少的情况可以做的一个重要方向。当小程序用户逐渐多起来之后,行为数据逐渐积累后,系统数据变得更加丰富。这种情况下,我们采用系统的大量同质数据,通过用户协同的方式采用深度神经网络模型构建核心推荐算法,实现基于用户行为的内容推荐效果。

在数据层面我们需要解决的另一个核心问题是,系统内数据已经初具规模,对于新用户和新内容需要解决冷启问题。好的推荐系统对冷启问题的处理也需要足够细致。一方面需要带给新用户更多的优质内容,另一外面还能探索到用户的小众兴趣所在。所以,在给新用户推荐的策略上,我们选择从与用户属性无关的热门内容和精选内容出发,并且从用户属性相关的标签内容出发进行内容推荐。对于新内容的推荐,一方面通过内容理解,推荐给标签或者语意上匹配的用户,另一方面也进行随机的探索。冷启的另外一个目标,是需要给冷启内容或者用户提供一个快速获得反馈的机制,通过反馈机制获得更多的真实行为数据。从而,可以把问题引入到前面所述的已有规模数据的背景下解决。

算法,在推荐系统中是一个引擎的作用。引擎有动力的强弱,匹配的需要消耗的能源也不同。在具体问题中,需要根据问题的复杂程度和问题所处的上下文环境适当选择推荐引擎。在推荐中,核心引擎,体现在召回和排序两个步骤。在召回层面,需要解决的是如何从大量候选集合中选择选择最佳的一部分样本,提供给后续的排序模块。对召回算法,一个要求速度足够快,其计算往往是足够的简单,比如从索引服务构建召回逻辑,从内容向量库加速相似计算的方式获取召回内容。另外一个要求,是要求召回的内容够足够的丰富。能够保证召回内容,包含当前最新的内容,这就要求系统要做到足够的实时;能够保证召回内容足够的热门,并且热门的内容也是不断更新变化的;还需要保证能够召回用户可能感兴趣的小众内容,或者是运营要求的候选内容等。

召回

算法中另外一个核心引擎是排序处理流程。在召回给定一个有限的较小的候选范围内,如何将这些内容更好更细致的排序,这个排序需要解决的问题。相比召回,排序模型需要使用的用户侧、内容侧和环境侧的信息更加的丰富。需要考虑用户的年龄、性别、工作城市、阅读兴趣等,内容侧需要考虑的有发表者、文本的长度、点赞数量等等,环境侧还需要考虑用户当前所处的网络信号状态、地理位置、时间等等。排序模型,是一个对用户行为数据变化很敏感的一个环节。在用户使用产品过程中,用户的历史行为是不断累积和变化的,用户的浏览兴趣也是不断在微妙地变化,通过数据回流的方式,快速反馈到排序上,模型能够捕捉到用户当前的兴趣爱好的变化,提供更加细致的推荐体验。

排序

服务是推荐系统能够工作的一个基石,也是所有推荐算法和数据发挥作用的前提。首先,服务需要完成整套推荐逻辑,包括召回和排序,还有数据回流,模型在线训练等等流程;其次,服务还需要具有高可靠性能,这就要求框架需要足够的强大,具有自动容灾和监控报警等一系列运维能力。小程序的推荐架构基于微信的后台架构所构建,其稳定性能够得到足够的保障。在保障稳定的同时,服务还需要能够应对大规模用户和高峰用户访问的请求压力,以及数据不断累积带来的存储和快速访问压力。在这一点上,我们设计了具有可扩展能力的推荐架构,数据存储采用了微信内部的分布式文件系统和KV系统,为推荐所需要的线上数据提供存储保障。
新智元We站改版:AI技术干货+B站风格直播

2019年10月,新智元与正在起步阶段的腾讯We站(在微信生态下,致力于为中小型服务者与企业提供私域流量囤积与运作的解决方案的社区型小程序)达成了深度合作共识,至此,新智元成为了We站的第一个企业级合作伙伴。

入驻We站三个月来,在双方共同的努力配合下,新智元的用户社群发展如火如荼,月活跃用户量翻了六倍,人均停留时长增长了20%,累计访问人数达到了11万人,实现了真正地飞跃式进步。可以说,新智元是We站B端产业链发展的一面旗帜,而We站是新智元培养用户的“重器”。

现在,新智元We站迎来改版,全新聚焦AI技术干货+b站风格直播,致力于打造属于你的新智元We站!功能模块更是全面升级!最大的亮点即在小程序首页增加#活动#功能tab和智能搜索入口,可快速发现最新最热的AI互动资讯!你可以随时发表最新研究和分享AI新知!参与直播互动讨论,和大咖过招!2020来新智元We站,AI技术High起来!


在紧锣密鼓的准备下,新智元We站第一期技术公开课功能已经初版上线,特邀16本Python系列教材作者董付国教授,深度揭秘“如何编写有“Python味道”的Python代码”。公开课包含图文直播、在线互动、专家答疑三个模块,吸引了众多AI大咖和实践者参与,好评如潮。

接下来,除了不断带给大家AI技术干货,我们将和腾讯We站团队探索一系列新功能,包括直播功能、推荐功能、活动功能,敬请期待!

扫描下方海报二维码即刻报名「新智元We站公开课」 微信人工智能高级研 究员的阙文晖 手把手教你 从0到1快速搭建推荐算法系统架构。
登录查看更多
1

相关内容

【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
CMU博士论文:可微优化机器学习建模
专知会员服务
59+阅读 · 2019年10月26日
清华美女学霸数学笔记曝光, 精美程度无与伦比
算法与数学之美
7+阅读 · 2019年3月22日
手把手教你搭建智能客服系统
InfoQ
13+阅读 · 2018年4月3日
MATLAB畅销书主编的寒假系列课(送100G资料包),最后 70 个报名名额!
机器学习算法与Python学习
6+阅读 · 2018年1月26日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
MATLAB畅销书主编推出寒假系列课 限量优惠+送100G资料礼包!
数据挖掘入门与实战
8+阅读 · 2018年1月4日
MATLAB畅销书主编推出系列课 限量优惠+送100G资料礼包!
算法与数学之美
4+阅读 · 2017年11月2日
【直播】Deep Learning 读书分享 :前馈神经网络
AI研习社
3+阅读 · 2017年9月15日
京东用户画像揭秘:原来买iPhone X的是这么些人
R语言中文社区
10+阅读 · 2017年9月14日
博士团队带您入门机器学习,课程大优惠,限额30人,赶快上车啦!!!
Arxiv
8+阅读 · 2019年3月21日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
6+阅读 · 2018年1月11日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
CMU博士论文:可微优化机器学习建模
专知会员服务
59+阅读 · 2019年10月26日
相关资讯
清华美女学霸数学笔记曝光, 精美程度无与伦比
算法与数学之美
7+阅读 · 2019年3月22日
手把手教你搭建智能客服系统
InfoQ
13+阅读 · 2018年4月3日
MATLAB畅销书主编的寒假系列课(送100G资料包),最后 70 个报名名额!
机器学习算法与Python学习
6+阅读 · 2018年1月26日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
MATLAB畅销书主编推出寒假系列课 限量优惠+送100G资料礼包!
数据挖掘入门与实战
8+阅读 · 2018年1月4日
MATLAB畅销书主编推出系列课 限量优惠+送100G资料礼包!
算法与数学之美
4+阅读 · 2017年11月2日
【直播】Deep Learning 读书分享 :前馈神经网络
AI研习社
3+阅读 · 2017年9月15日
京东用户画像揭秘:原来买iPhone X的是这么些人
R语言中文社区
10+阅读 · 2017年9月14日
博士团队带您入门机器学习,课程大优惠,限额30人,赶快上车啦!!!
Top
微信扫码咨询专知VIP会员