系统架构领先业务半年,是优雅解决问题的关键

2022 年 3 月 15 日 InfoQ


嘉宾丨周寻
编辑丨薛梁  

随着互联网用户数的增长,数据量和流量的爆发式增长,常规的数据处理和服务推荐手段已经很难适应当下复杂的业务场景,如何精细、准确、高效、智能的将产品和用户联系起来,成为各个平台系统越来越关注的点。因此,基于千人千面的个人性推荐系统成为各个业务场景不可或缺的一环。

周寻老师之前在爱奇艺负责的工作都和数据和算法相关,包括爱奇艺主要流量端的个性化推荐,大数据平台化建设,比如 A/B 实验平台,用户分析平台,用户画像平台等等,总的来说是一个为全公司的业务提供数据能力,利用算法和大数据技术让业务能更加高效运转和增长的大数据中台团队。周寻有十年大数据和智能算法经验,在个性化推荐算法和平台架构、大规模 OLAP 系统、用户画像、数据科学等领域有深入的实践经验。

在 2021 年 ArchSummit 全球架构师峰会 上,我们邀请周寻老师来担任“新时代推荐系统技术”专题出品人,策划大数据和推荐系统探索方面的议题,以下是和周寻老师的沟通整理。

1亲历数据平台架构的升级

此前作为爱奇艺推荐系统和大数据应用团队的负责人,周寻老师亲历并主导了多次数据平台架构的升级,对于爱奇艺大数据架构的建设和改造,印象深刻。周寻刚加入爱奇艺的时候,负责的其中一个项目是用户画像,简单来讲就是利用用户的各种行为轨迹数据为用户打标签,当时的一个比较大的困难是用户数据散落在各个业务和系统中,数据团队花费了很多精力从各个业务系统和数据库中抽取这些信息,有时还存在用户 ID 不一致,行为埋点信息不准确等一系列问题,可以说这个阶段是非常痛苦的。

大概在 2017 年的时候,随着公司内的数据团队逐渐整合在了一起,数据的标准化和统一化成为了大数据部门的首要任务,周寻带领团队先设计了统一的公司埋点规范和用户 ID 规范,随后通过接近 2 年时间的数据中台化的建设和推进,很好的解决了第一阶段的各种痛点。随后,他们对公司内的数据产品进行了整合和 SaaS 化建设,比如面向用户侧分析的系统,面向内容侧分析的系统,A/B 实验系统等等,并在实时化、智能化、移动化三个方向着力,把数据能力前置让数据应用产品成为业务进行分析和决策的首要依靠。

2推荐中台的建设背景

推荐中台本质要解决的是效率问题,当我们有很多推荐场景需要同时并行迭代优化的时候,人效提升和能力共享变成了一个亟需解决的问题。

周寻拆分成两个阶段来介绍:第一个阶段,团队实现了一些最简单的可配置化场景上线,大多是通过复用其他场景模型的方式,这样的优点是能快速接入和上线,缺点是无法很好的进一步优化推荐效果, 这种方案在爱奇艺进行个性化改造的初期是一个比较好的选择。

而在用户产品的个性化渗透达到比较高程度的时候,数据团队开始着手进入推荐中台第二阶段的工作,主要目的是把一些核心组件进行配置化和开放化,这样负责不同推荐场景的工程师可以进一步开展深度优化,在配置化建设过程中也比较重视经验沉淀,把一些好的“算子”进行抽象管理,方便团队直接互相借鉴经验。 随着算法成熟度和业务复杂度的不断提高,推荐中台的角色也将越来越重要。

当然,中台架构在建设过程中难免也会走些弯路。周寻认为,架构的升级往往是业务和技术双驱动,用更先进技术更好解决更复杂的问题,但架构升级往往会带来业务的阵痛期。从周寻的经验角度看,只有把架构跑在业务前面才能更加优雅的解决问题,周寻对团队的要求是架构至少应该领先业务半年, 当然,这要求架构师对业务的理解和预判有更高的要求。

3算法是推荐系统的灵魂

大数据个性化推荐系统的好坏,最相关的便是其采用的推荐算法,它是整个系统的灵魂。有基于关联规则、基于内容和基于协同过滤的推荐,在选取规划上的考量因素有哪些呢?周寻说,现代的推荐系统都是多种算法的融合,同时考虑多样的业务目标,算法的选择一定要从业务本质出发,他甚至认为,关于商业逻辑的思考是算法工程师必备的课程。

此外,用户数据在推荐中扮演着重要的角色。周寻说,除了常见的用户画像能力,更重要的包括了用户行为数据的颗粒度和实时性,在爱奇艺的推荐系统中,用户的行为数据可以分为三个层次(实时,近线和离线)来影响算法策略。另外,埋点的颗粒度也会直接影响推荐系统的上限,比如用户在看视频中的拖拽行为,跳出点信息等等都可以为算法模型拿来学习。

虽然大数据个性化推荐在当前互联网行业的使用已变得炙手可热,但不可否认,很多产品的推荐效果还远远没有达到期望的那样,未来的路还很长。正如周寻所说的,推荐效果的衡量方式在不同公司不同行业的定义都不同,内容类的可能会强调用户时长,电商类的可能会强调交易,社交类的强调关系建立等等。如何定义好推荐效果指标是首先要解决的问题,这涉及到前面说的对商业逻辑的思考。同时,在产品发展的不同时期,也应该策略性的去调整推荐目标,没有定式但一定是从业务本质出发同时是数据可衡量的。

嘉宾介绍

周寻eBay 中国研发中心(CCOE)总监

推荐广告团队负责人,前爱奇艺主 App 推荐和大数据应用平台团队负责人,有十多年大数据和智能算法经验,在推荐广告算法及系统架构,用户画像,AB 实验数据科学,大规模 OLAP 等领域有深入的实践经验。

今日好文推荐

估值超百亿的UI设计软件封禁中国大疆,国产软件火速发声

这20年,我“颠簸”在软件工程的列车上

我国互联网遭境外网络攻击;俄罗斯或将多家外企“国有化”;Linux内核被发现易于利用的漏洞|Q资讯

TikTok美国数据或将由甲骨文存储,字节跳动无权访问

点个在看少个 bug 👇

登录查看更多
2

相关内容

爱奇艺于 2010 年 4 月 22 日正式上线,推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。2018 年 3 月 29 日,爱奇艺于纳斯达克上市,股票代码 IQ。目前,爱奇艺已成功构建了包含短视频、游戏、移动直播、动漫画、小说、电影票、IP 潮品、线下娱乐等业务在内、连接人与服务的 娱乐内容生态,引领视频网站商业模式的多元化发展。
《企业物联网平台技术白皮书(2022)》31页PDF,阿里云
专知会员服务
23+阅读 · 2022年3月23日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
《数据中台交付标准化》白皮书
专知会员服务
122+阅读 · 2022年3月21日
专知会员服务
64+阅读 · 2021年4月27日
专知会员服务
189+阅读 · 2021年3月22日
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
面向B端算法实时业务支撑的工程实践
阿里技术
0+阅读 · 2022年2月10日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
湖仓一体会成为企业的必选项吗?| Q推荐
大数据平台如何进行云原生改造
InfoQ
0+阅读 · 2022年1月26日
聊聊我们在业务链路升级中做的数据洞察
阿里技术
2+阅读 · 2021年12月16日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Table Enrichment System for Machine Learning
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月17日
VIP会员
相关VIP内容
《企业物联网平台技术白皮书(2022)》31页PDF,阿里云
专知会员服务
23+阅读 · 2022年3月23日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
《数据中台交付标准化》白皮书
专知会员服务
122+阅读 · 2022年3月21日
专知会员服务
64+阅读 · 2021年4月27日
专知会员服务
189+阅读 · 2021年3月22日
【干货书】现代数据平台架构,636页pdf
专知会员服务
253+阅读 · 2020年6月15日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
相关资讯
面向B端算法实时业务支撑的工程实践
阿里技术
0+阅读 · 2022年2月10日
作业帮基于Flink的实时计算平台实践
AI前线
0+阅读 · 2022年1月27日
湖仓一体会成为企业的必选项吗?| Q推荐
大数据平台如何进行云原生改造
InfoQ
0+阅读 · 2022年1月26日
聊聊我们在业务链路升级中做的数据洞察
阿里技术
2+阅读 · 2021年12月16日
阿里巴巴全球化架构设计挑战
InfoQ
35+阅读 · 2019年11月25日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员