DataCanvas周晓凌:如何为用户提供最佳体验的实时推荐系统

2018 年 11 月 12 日 DataCanvas大数据云平台

点击蓝字关注DataCanvas

DataCanvas布道师团队成员之

首席解决方案架构师

周 晓 凌

"如何为用户提供最佳体验的推荐系统"



今天,我们探讨一个实时营销推荐系统中的难题:如何为用户提供最佳体验的推荐系统,并且系统能够支持新推荐方法的快速尝试。

实时推荐系统可以追溯到在线广告的竞价阶段,也就是我们一般称为实时竞价即RTB为核心的程序化交易,通过实时计算与海量数据离线计算能力为特点目标客户投放营销广告。


而近几年来实时流式计算能力的门槛大大降低,使得我们可以快速搭建一套实时推荐系统


这里,我们将提供一个实时推荐系统的软件架构思路,同时讨论解决上述难题所需要面对的挑战。


实时推荐系统的整体架构图:

整体系统架构图可以分为在线计算离线计算两部分。

 

在线计算由于是实时计算可以更好地响应用户最新的事件和交互(例如网页浏览、点击事件、停留时长等),但由于实时响应,这限制了可以采用算法的计算复杂性以及可处理的数据量。

 

离线计算对数据量和算法的计算复杂性限制较少,但是由于用户最新的交互数据没有合并利用,模型的准确度以及及时性得不到保证。

 

因此可以看到,实时推荐系统的关键问题之一是如何以无缝方式组合和管理在线和离线计算及其处理的不同类型的数据和事件

此外,还有其他需要注意的问题:


 • 如果仅依靠在线计算实时响应,当在某些情况下出现无法满足服务要求时,有没有快速回退机制?(例如:恢复到预先计算的结果或者采用预先计算的结果来满足要求)


 • 新技术和新方法层出不穷,是否快速尝试新算法以支持创新?


 • 如何支持事件进行更复杂的处理以支持更为丰富的业务场景?(例如:在线计算完成后缓存中间结果)

推荐系统的目标是提供个性化的营销推荐建议,并且可以根据用户的实时行为做出实时响应。实际的推荐结果可以直接从离线计算的列表中提供服务,也可以通过在线算法动态生成。


为了解决以上涉及的问题点,以及综合现实实践经验,我们的解决方案是使用两者的组合,大部分中间结果采用离线计算,通过在线计算对列表进行后处理来增加新鲜度和实时性,实现统一完备的实时推荐系统

 

使用离线过程预先计算部分结果或者全部结果并完成模型的训练工作,将上下文敏感的信息采用在线计算的方式提升用户体验。甚至建模部分也可以采用离线/在线混合的方式完成

 

例如:推荐算法中的矩阵分解就比较适合混合在线/离线建模的方式(将计算耗时的近邻用户/商品矩阵的计算以离线方式预先计算并缓存,最新事件流完成实时更新推荐);无监督方法(例如聚类)离线计算获得聚类中心和聚类分组在线完成分配;静态标签离线计算,动态标签在线计算并推荐最终排序结果。


如下图的基于标签的实时推荐系统示意图:

另外,无论是在线还是离线计算,都需要考虑算法如何处理数据和事件

 

在这里我们区分数据和事件,仅仅是强调针对不同数据处理的时延差异。我们事件视为时间敏感信息(诸如会话,设备,日期或时间的上下文数据构成),需要尽可能少的延迟进行处理。另一方面,我们将数据定义为需要处理和存储供以后使用的信息,这部分对于延迟并不敏感。


针对不同数据有不同的存储和计算策略,都需要和具体应用场景和客户环境结合起来讨论。

 

比如在电商类环境中,除了传统的用户对用户、商品对商品的推荐,也需要追踪用户在电商客户端的搜索、浏览、加购、下单、付款等行为,提供基于行为的跨屏商品实时推荐,同时也帮助用户提升购物决策效率


在内容类客户端,除了使用传统的文本聚类、主题发现、相似度计算以外,也会通过跟踪读者对内容的搜索、详情浏览、评论阅读与评论交互等行为,通过自然语言处理,图谱推理等技术实现内容推荐,实现连续的阅读以提升产品的使用时长与用户粘性


DataCanvas RT实时计算平台,是国内外领先的流数据实时处理和分析平台,具备低时延(毫秒级)、高吞吐(单集群支持>10TB/日流量)、高性能(>40,000 TPS 保序场景/>160,000 TPS 非保序场景)等特性,能够提供风险监控、精准营销、实时预警与事中分析等多种应用场景的实时分析。


DataCanvas RT实时计算平台强大的数据分析处理能力,为企业提供面向未来的大数据技术和人工智能计算架构的支撑。平台全面考虑实际应用的业务场景与技术指标要求,为企业未来的大数据技术提供高效可靠的基础设施。

了解更多DataCanvas

DataCanvas RT强势升级,速来围观!

DataCanvas周晓凌亮相互联网大会,畅谈企业AI构建实践

DataCanvas方磊:IT技术交付将来未来十年发生重大变革

金秋报喜|DataCanvas获评2018金融科技创新项目奖

双创周期重点论坛:DataCanvas金融科技实践经验引关注

对标Alteryx,看DataCanvas数据科学平台如何占据C位!

优秀!DataCanvas入选“中关村领创金融三十强”

DataCanvas荣膺2018中国大数据准独角兽

DataCanvas

数据科学平台领导者


登录查看更多
5

相关内容

推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
腾讯推荐引擎组员工:谈谈推荐系统架构
腾讯大讲堂
14+阅读 · 2019年10月23日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
深度 | 推荐系统如何冷启动?
AI100
17+阅读 · 2019年4月7日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
42+阅读 · 2017年10月31日
Arxiv
35+阅读 · 2019年11月7日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Arxiv
12+阅读 · 2018年9月5日
VIP会员
相关资讯
腾讯推荐引擎组员工:谈谈推荐系统架构
腾讯大讲堂
14+阅读 · 2019年10月23日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
深度 | 推荐系统如何冷启动?
AI100
17+阅读 · 2019年4月7日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
【智能商务】海量商品查找利器—苏宁搜索系统
产业智能官
5+阅读 · 2017年12月1日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
42+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员