看点 - 你想了解的我们都懂

2020 年 4 月 12 日 AINLP

看点 - 你想了解的我们都懂

我们不止步于找房

对未知的好奇和探索是我们与生俱来的,尤其在互联网热潮下,信息的爆炸式增长更加激发了人们对这个世界的求知欲,当我们主动的去找寻信息和事物,这就是搜索,当然,我们也并不排斥好的事物或者优质的信息主动找我们,这就是推荐。

贝壳找房作为名副其实的找房大平台,不仅为用户提供“新居住”的主角:海量真实的房源,还为用户主动提供居住所需的信息和知识:如房市资讯、房产知识、装修建议等等,以帮助用户规避风险,提升用户的买房体验。

我们一边是让你尽快找到适合自己的居住房源,另一边也全程提供内容服务。而后者,就是我们今天要介绍的房产内容信息流产品——看点。本文将围绕看点的文章推荐算法进行展开。

贝壳看点产品图

新用户首屏定制-新用户冷启动问题的初尝试

问题分析

在看点,通过对现有策略进行多维度的分析,我们发现:

  • 新用户数量大,新老用户群体的比例接近一比一;
  • 新老用户在不同策略上的指标差异明显,新用户指标明显低于大盘指标;
  • 不同城市在用户量和策略效果上有差异明显。

因此改善新用户的体验,从而提升整体用户体验,保持用户数量健康的增长,以及指标的提升,是非常重要的。常用的推荐算法如协同过滤、关联规则以及混合推荐等等,都是利用大量用户的行为,从中挖掘出有价值的信息,因此在数据充足且用户行为丰富的时候,推荐效果往往比较准确,那么这一类用户的用户体验就会比较好,但对于一个推荐系统而言,所要面对的,不光是这些交互频繁的用户,总会有另一类用户,他们刚刚进入到系统里,系统对于他们的了解几乎是零,没有行为信息和偏好信息,那上面所提到的方法显然就无法使用了,这就是推荐系统中的一类重要问题—冷启动问题。

通常解决冷启动的方法大致有以下几类:

  • 构建热门排行榜
  • 用户填写或选择兴趣:像微博、知乎等都会在新用户注册时候通过标签选择来获取用户信息,然后构建类别人群进行推荐
  • 用户的社交网站等其他渠道的信息,比如社交登录机制
  • 将物品聚类,为用户推荐多样化的物品
  • 转化为老虎机问题,借用强化学习中的EE(exploration-exploitation)思想

解决方案

dmp做了哪些探索

  • 区别于社交和咨询属性的软件,我们在新用户注册时,并没有对用户进行基本信息的收集这样的操作,不过,我们的用户策略团队在理解用户方面做了大量的工作——利用用户在APP上的行为,建立用户模型,建立用户画像。也得益于他们的工作,我们可以站在巨人的肩膀上,对新用户进行分析。在贝壳,为了描述用户从加入平台、参与平台、最终离开的整个过程不同阶段的表现,建立了用户生命周期的概念,通过对用户生命周期状态进行精细划分,更加深入的了解用户,提前预知用户变化轨迹,从而能够更好的引导用户的状态流转,最终达成成交目标。
  • 在对用户生命周期的刻画上,通过对流失前的活跃时长统计分析后,选取时间范围为28天的用户行为数据,涵盖了pv,停留时常,用户搜索、用户互动等线上行为与商机、委托等线下行为数据,进行建模,加上合理的时间衰减用于对行为的重要性进行权重调整,最终得出了7类用户状态,通过后验的行为数据进行检验,发现这些类别间有明显的区分性。可以看出,这个模型对于在首次访问行为很多的新用户,是非常有利的。那么对于当天行为量很少的新用户,如何区分出他们和真正沉默的用户呢?为了解决这个问题,使用户生命周期可解释性更强,对该模型进行了更新,新的一版模型,引入了时间特征,通过标签扩散的方法实现对用户生命周期状态的划分,即制定一些规则找到每个状态下最具有代表性的用户作为种子用户,将该问题抽象为一个多分类问题,选择了xgboost、OVR以及对应的PU-Learning模型。经过训练和验证,最终选择了效果最好的xgboost模型来解决用户生命周期的划分问题。时序特征的引入可以有效的区分沉默期的新老用户,并且按照业务规则选择种子用户,也可以适应不同的业务场景。得益于以上同学的工作,我们也可以利用用户生命周期,来了解和探索看点的用户。

解决思路

前面说到了解决冷启动问题的几种思路,在这里,结合公司的实际情况,我们采用第二种方法和第四种方法的思路,从对用户进行类别分层,以及多样化新用户的首屏这两方面开展工作,尝试解决冷启动问题。俗话说,物以类聚,人以群分,用户都具有群体性的特点,而每个群体又都有相似的行为特点和诉求。我们相信来到平台的新用户,一定是带有某种明确诉求,那么我们就可以据此对他们进行分层细化,虽然无法针对每一个个体进行个性化,但可以针对新用户这一类人群进行群体个性化。另一方面,感谢文博同学在文章主题标签方面的大量工作,看点的文章被各式各样的主题标签所细化,这也十分有利于我们探索不同群体用户对于文章主题的偏好,从而将特定群体的用户偏好的主题文章推荐给相似群体。在这样做的同时,我们也希望可以针对新用户做首屏优化,使首屏的不同位置出现不同主题类型的文章,提高多样性,也利于接下来的新用户主题的分析,形成数据循环。

实践

  • 用户选取

    • 城市:在不同的城市,由于受收入、政策、文化差异等的影响,购房者特性存在差异。为此我们统计了主要城市的用户占比及点击率数据,其中北京用户在其中占比为41%,但是点击率在这些城市中处于末位,因此需要从城市维度对用户分别优化,这里我们选用了用户数量占比最大的北京。

    • 新老用户:目前看点的用户的组成如下:
类型 占比 有用户画像占比
新用户 50% 13%
老用户 50% 99.93%

可以看出新用户和老用户比重一样,老用户普遍都有用户画像覆盖,而新用户大多没有用户画像覆盖,因此我们对是否区分新老用户进行两个假设:

序号 假设 分析
1 同一个城市新老用户无差异 目的一致;个体的无差异性假设
2 同一个城市新老用户有差异 老用户:意图明确;稳定的状态;关注频繁  
新用户:需求不一定明确;偏好内容多样;潜在内部差异
  • 文章选取(展示的仅为部分示例)

    • 针对假设1的选取方案:在地域为北京和全国的文章中,我们选取时间窗口为一个月,曝光数量超过一定阈值且UCTR较高的文章,按照内容主题统计其CTR(点击率)和UCTR(用户点击率)

    • 针对假设2的选取方案:新用户过去一个月内,曝光超过一定阈值且UCTR较高的文章,按照内容主题统计CTR和UCTR

方案一中,针对北京和全国所有用户进行文章主题统计,按照点击率降序排序如下:

内容类别 地域
政策规划-城市规划-城区建设 北京
政策规划-城市规划-城市规划 北京
其他-其他-其他 北京
市场行情-观点-观点 北京
政策规划-城市规划-交通规划 北京
市场行情-行情-行情 北京
导购评测-导购-导购 北京
土地-土地-土地 北京
政策调控-城市政策-城市政策 北京
新闻故事-故事-故事 全国
假设1方案统计数据表(部分)

方案二中,除了进行针对新用户的主题统计外,还统计了新用户在次日画像中的分布特点,如下:

阶段 占比 说明
A 67% 沉默期
B 20% 意向期
其他 13% 其他

这两类时期用户的偏好主题(按照点击率降序排列):

A时期内容类别 B时期内容类别
装修-装修百科-装修百科 装修-装修百科-装修百科
住宅建筑-商业地产-商业地 住宅建筑-商业地产-商业地产
百科经验-百科经验-百科经验 机构动态-房企动态-房企动态
百科经验-看房选房-看房选房 市场行情-快讯-快讯
市场行情-行情-行情 装修-案例风格-装修案例
住宅建筑-产业-产业 政策规划-城市政策-城市政策
政策规划-城市政策-预测解读 政策规划-全国政策-全国政策

市场行情-观点-观点

百科经验-百科经验-百科经验
假设2方案统计数据表(部分)

小结

由于新老用户的偏好不同,新用户也存在差异性,对不同时期新用户对于主题内容偏好、文章内容的丰富性进行综合考量,共选取了六个二级主题:“装修-案例风格”、“装修-装修百科”、“新闻故事-故事”、“百科经验-百科经验”、“金融-金融”、“政策规划-城市政策”,“市场行情-行情”为新用户进行首屏推荐。

实验效果

  • 推荐属于数据驱动的场景,因此我们通过AB实验来评价上述两种改动在真实用户中效果如何,由于前面所说的两个版本不是同时上线进行实验的,因此我们分别看他们和对照组的对比
  • 方案一经过试验,发现指标都相比对照组均有所下降,因此进一步分析发现全体用户点击率高的文章和新用户点击率高的文章差异很大,因此两类用户要区分开。
  • 方案二实验结果:
组别 UCTR相对提升 CTR相对提升
对照组 —— ——
实验组 3.54% 1.36%

方案2实验组比对照组UCTR相对提升3.54%,CTR相对提升1.36%

写在后面的话

  • 与搜索排序场景不同的是,在搜索排序场景中,我们往往可以根据用户的查询,从而知道用户更为明确的意愿,也可以从其他业务场景中知道用户浏览或点击过哪些喜欢的房源,这些都可以作为构建用户喜好的一种标签,但是对于推荐场景,往往无法从更多的渠道得知用户喜欢哪类文章,或者可能对哪些文章感兴趣,因此挖掘用户内在的不同分层就显得比较重要,同时,也要考虑推荐物品的更新,让更多的物品通过推荐曝光出来,增加惊喜度,毕竟,健康的数据循环流才是保持推荐系统生态稳定的基石。
  • 一点小收获:分城市维度优化,针对用户占比大但效果不佳的城市进行case分析,往往比全面调整更有针对性。

特别鸣谢

  • 用户策略部-数据策略小组的李嘉晨,秦若凯,付东东同学的支持
  • 语言智能与搜索部-行业图谱小组的苏文博同学的支持

作者介绍

田琳,2019年1月毕业于哈尔滨工业大学企业与服务智能计算研究中心,毕业后加入贝壳找房语言智能与搜索部,主要从事搜索排序优化、推荐等工作。

推荐阅读

AINLP年度阅读收藏清单

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

From Word Embeddings To Document Distances 阅读笔记

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

这门斯坦福大学自然语言处理经典入门课,我放到B站了

可解释性论文阅读笔记1-Tree Regularization

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


登录查看更多
2

相关内容

冷启动关注的是产品早期获取早期核心用户,以及如何运营的问题。
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
专知会员服务
199+阅读 · 2020年3月6日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
2018年推荐系统入门指南
论智
15+阅读 · 2018年7月14日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
42+阅读 · 2017年10月31日
推荐系统杂谈
架构文摘
28+阅读 · 2017年9月15日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
自然语言处理技术(NLP)在推荐系统中的应用
CSDN大数据
4+阅读 · 2017年6月29日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey on Edge Intelligence
Arxiv
50+阅读 · 2020年3月26日
Arxiv
30+阅读 · 2019年3月13日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
VIP会员
相关资讯
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
用户研究:如何做用户画像分析
产品100干货速递
44+阅读 · 2019年5月9日
2018年推荐系统入门指南
论智
15+阅读 · 2018年7月14日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
42+阅读 · 2017年10月31日
推荐系统杂谈
架构文摘
28+阅读 · 2017年9月15日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
自然语言处理技术(NLP)在推荐系统中的应用
CSDN大数据
4+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员