因此,爱奇艺技术产品团队设计并实现了一套个性化海报生产与分发系统,本文将从整体框架、海报生产、海报分发、业务策略以及场景效果等几个方面,一起看看个性化海报在视频推荐场景中的实践。
个性化推荐是根据用户的兴趣特点和点击或购买行为,向用户推荐用户感兴趣的信息或 商品,最大的优点在于,它能收集用户特征资料并根据用户特征,如兴趣偏好,为用户主动作出个性化的推荐。而在视频平台上,海报则是用户对某一部影片的第一映像,是影片的所有信息缩影。用户看或不看该影片,往往在快速浏览时就有了答案。
Netflix早在2014年开始为相同剧集制作多个海报,并调整文字内容、字体、设计颜色和风格,做了大量的线上推荐实验。并主要得出以下3点结论:
1、海报形式便于用户做决策:海报承载了更多的信息,用户看海报的时长比看字的时长高四倍,平均花费思考标题的时间只有1.8秒;
2、海报设计的质量非常关键:画质差会让用户觉得影片low,影响用户对该影片的点击率;
3、海报中人物数量较重要:在海报设计中人物最好不要超过三个,人物越多用户很难聚焦信息,导致用户对该影片的理解能力变差。
用户为什么点击这张,而不是另一张。是因为海报上有你的idol让你情非得已?演员的夸张的表情让你欲罢不能?又或者是海报的色调搭配、构图设计让你赏心悦目?还是其他未知的原因?
然而这不得不让我们开始思考,在提供个性化内容的同时,能不能满足用户对不同海报的审美需求。这给视频平台提出了一个新的挑战。爱奇艺技术产品团队设计并实现了一套个性化海报生产与分发系统,在爱奇艺的电视端与移动端进行了个性化海报分发的实践,并得出结论:相比默认的单张海报图,个性化海报图的CTR(Click-Through-Rate即点击通过率)有明显的提升。
图 1 个性化海报图整体框架
在获取丰富的素材后,利用AI海报生产系统对海报、剧照素材进行智能裁剪,对视频素材进行智能截帧。自动化生产出大量候选图片集合,为保证海报质量能100%分发到线上,需进行二次人工复审,复审后的精选海报集合进入个性化海报池。
海报的线上分发模块与传统的视频推荐类似,对需要展示个性化海报的视频进行海报维度的召回、排序以及业务策略,最终为用户推荐最优的个性化海报。下文将详细介绍在AI海报制作、个性化海报分发以及线上实践效果。
智能裁剪:基于图片的AI海报制作
ZoomAI智能增强技术,包含去噪、色彩增强等功能,画质增强算法可以用来提升图片质量。用来进一步提升生成海报图的质量。
智能截帧:基于视频内容的AI海报制作
基于视频内容的AI海报制作,有一个新的挑战是需要从海量的视频帧中选取合适的一些帧来作为生产素材,生产出高质量的海报图,并且避免重复。因此,我们设计了智能采样模块来解决这个问题。
个性化海报的分发,分为离线、在线两个部分:
离线部分,将海报图片上传CDN生产线上可用的图片链接,并将海报图索引信息上传数据库。同时爱奇艺技术产品团队还设计并实现了一套海报图标签特征抽取系统,结合脸谱用户侧特征以及用户行为数据训练个性化海报排序模型。我们尝试了上下文无关MAB,上下文相关MAB以及浅层或深度排序算法,如FM、DeepFM等。
在线部分,我们通过爱奇艺推荐平台,快速实现并部署了高可用的个性化海报服务。首先根据场景的配置,召回不同来源、不同尺寸、不同召回模型的海报集合,再利用训练好的模型对召回集合好个性化排序,最后根据业务需求应用不同的策略逻辑,将最合适的海报分发给用户。
特征抽取
海报图排序模型
在海报积累足够用户行为之前,我们并不能提前知道用户在看到海报之后如何反馈,也就是不能提前获得收益,唯一能做的就是不停地尝试Exploration,并收集反馈更新策略,目的是使得整个过程损失的收益最小。这一过程就是十分经典的的多臂赌博机问题(Multi-armed bandit problem, MAB)。我们应用MAB算法是将不同的海报候选当做赌博机的多个臂,不断的试探用户,让效果更好的海报的展示机会更多。
上下文无关MAB
上下文无关的MAB有很多经典的算法,比如基于贪婪优先的Epsilon-Greedy算法,基于最大置信区间的UCB算法,以及基于Beta分布假设的ThompsonSampling算法。为了捕捉用户不同时间段的兴趣爱好,经过对几种算法的实验对比,我们最终采用了一种基于滑动时间窗口的MAB算法。
海报应用策略
2、展示降权
用户对于长视频的观看决策周期比较长,我们在不同场景进行了实践,同一个视频可能对于同一个用户展示多次。用户海报维度的展示降权不仅能增加海报图模型的探索性,也会让用户看到这个视频不同风格类型的海报图,吸引用户做出决策。
3、海报退场
对于视频的海报候选集合,我们设计了一套新增海报的爬坡退场机制。对于新增的海报候选,逐步的扩大其分发量与分发的用户量。实时监控其CTR,对于没有达到预期的海报图,进行适当的降级,直到退场处理,有效的保证线上效果不会受到新增海报的较大负面影响。
4、场景匹配
在某些线上场景,我们尝试了与场景结合的策略,主要是应用了图片Tag与展位展示文本信息的相似匹配。比如电影专题,Card的标题会显示的标识出明星的名字。如果我们优先的为用户推荐包含该明星名字的海报,用户将更容易理解,用户的体验将会进一步提升。实验数据也证明,这个策略对于该场景的效果也会有提升。
在电视端、移动端的不同场景,我们均进行了小流量实验。并且统计了展位维度、单片维度、海报维度三个维度的效果,均有不错的提升。
上图是两个场景展位维度的CTR与UCTR数据,可以看到实验组,尤其是最优分桶的提升比较明显。下面可以看看一些海报维度的效果示例:
图 4 海报维度效果示意图
参考文档
https://medium.com/netflix-techblog/artwork-personalization-c589f074ad76
https://www.jianshu.com/p/558d38c62579
PS:欢迎加入 DataFunTalk 推荐算法交流群,与小伙伴们一起讨论推荐算法相关问题。加管理员微信 ( 微信号:DataFunTalker ) 或识别文末二维码,回复:推荐算法,会自动拉你进群。
文章推荐:
社群交流:
一个「在看」,一段时光!👇