对未知的好奇和探索是我们与生俱来的,尤其在互联网热潮下,信息的爆炸式增长更加激发了人们对这个世界的求知欲,当我们主动的去找寻信息和事物,这就是搜索,当然,我们也并不排斥好的事物或者优质的信息主动找我们,这就是推荐。
贝壳找房作为名副其实的找房大平台,不仅为用户提供“新居住”的主角:海量真实的房源,还为用户主动提供居住所需的信息和知识:如房市资讯、房产知识、装修建议等等,以帮助用户规避风险,提升用户的买房体验。
我们一边是让你尽快找到适合自己的居住房源,另一边也全程提供内容服务。而后者,就是我们今天要介绍的房产内容信息流产品——看点。本文将围绕看点的文章推荐算法进行展开。
新用户首屏定制-新用户冷启动问题的初尝试
在看点,通过对现有策略进行多维度的分析,我们发现:
因此改善新用户的体验,从而提升整体用户体验,保持用户数量健康的增长,以及指标的提升,是非常重要的。常用的推荐算法如协同过滤、关联规则以及混合推荐等等,都是利用大量用户的行为,从中挖掘出有价值的信息,因此在数据充足且用户行为丰富的时候,推荐效果往往比较准确,那么这一类用户的用户体验就会比较好,但对于一个推荐系统而言,所要面对的,不光是这些交互频繁的用户,总会有另一类用户,他们刚刚进入到系统里,系统对于他们的了解几乎是零,没有行为信息和偏好信息,那上面所提到的方法显然就无法使用了,这就是推荐系统中的一类重要问题—冷启动问题。
通常解决冷启动的方法大致有以下几类:
前面说到了解决冷启动问题的几种思路,在这里,结合公司的实际情况,我们采用第二种方法和第四种方法的思路,从对用户进行类别分层,以及多样化新用户的首屏这两方面开展工作,尝试解决冷启动问题。俗话说,物以类聚,人以群分,用户都具有群体性的特点,而每个群体又都有相似的行为特点和诉求。我们相信来到平台的新用户,一定是带有某种明确诉求,那么我们就可以据此对他们进行分层细化,虽然无法针对每一个个体进行个性化,但可以针对新用户这一类人群进行群体个性化。另一方面,感谢文博同学在文章主题标签方面的大量工作,看点的文章被各式各样的主题标签所细化,这也十分有利于我们探索不同群体用户对于文章主题的偏好,从而将特定群体的用户偏好的主题文章推荐给相似群体。在这样做的同时,我们也希望可以针对新用户做首屏优化,使首屏的不同位置出现不同主题类型的文章,提高多样性,也利于接下来的新用户主题的分析,形成数据循环。
类型 | 占比 | 有用户画像占比 |
---|---|---|
新用户 | 50% | 13% |
老用户 | 50% | 99.93% |
可以看出新用户和老用户比重一样,老用户普遍都有用户画像覆盖,而新用户大多没有用户画像覆盖,因此我们对是否区分新老用户进行两个假设:
序号 | 假设 | 分析 |
---|---|---|
1 | 同一个城市新老用户无差异 | 目的一致;个体的无差异性假设 |
2 | 同一个城市新老用户有差异 | 老用户:意图明确;稳定的状态;关注频繁 新用户:需求不一定明确;偏好内容多样;潜在内部差异 |
方案一中,针对北京和全国所有用户进行文章主题统计,按照点击率降序排序如下:
内容类别 | 地域 |
---|---|
政策规划-城市规划-城区建设 | 北京 |
政策规划-城市规划-城市规划 | 北京 |
其他-其他-其他 | 北京 |
市场行情-观点-观点 | 北京 |
政策规划-城市规划-交通规划 | 北京 |
市场行情-行情-行情 | 北京 |
导购评测-导购-导购 | 北京 |
土地-土地-土地 | 北京 |
政策调控-城市政策-城市政策 | 北京 |
新闻故事-故事-故事 | 全国 |
方案二中,除了进行针对新用户的主题统计外,还统计了新用户在次日画像中的分布特点,如下:
阶段 | 占比 | 说明 |
---|---|---|
A | 67% | 沉默期 |
B | 20% | 意向期 |
其他 | 13% | 其他 |
这两类时期用户的偏好主题(按照点击率降序排列):
A时期内容类别 | B时期内容类别 |
---|---|
装修-装修百科-装修百科 | 装修-装修百科-装修百科 |
住宅建筑-商业地产-商业地 | 住宅建筑-商业地产-商业地产 |
百科经验-百科经验-百科经验 | 机构动态-房企动态-房企动态 |
百科经验-看房选房-看房选房 | 市场行情-快讯-快讯 |
市场行情-行情-行情 | 装修-案例风格-装修案例 |
住宅建筑-产业-产业 | 政策规划-城市政策-城市政策 |
政策规划-城市政策-预测解读 | 政策规划-全国政策-全国政策 |
市场行情-观点-观点 | |
百科经验-百科经验-百科经验 |
由于新老用户的偏好不同,新用户也存在差异性,对不同时期新用户对于主题内容偏好、文章内容的丰富性进行综合考量,共选取了六个二级主题:“装修-案例风格”、“装修-装修百科”、“新闻故事-故事”、“百科经验-百科经验”、“金融-金融”、“政策规划-城市政策”,“市场行情-行情”为新用户进行首屏推荐。
组别 | UCTR相对提升 | CTR相对提升 |
---|---|---|
对照组 | —— | —— |
实验组 | 3.54% | 1.36% |
方案2实验组比对照组UCTR相对提升3.54%,CTR相对提升1.36%
田琳,2019年1月毕业于哈尔滨工业大学企业与服务智能计算研究中心,毕业后加入贝壳找房语言智能与搜索部,主要从事搜索排序优化、推荐等工作。
推荐阅读
数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?
From Word Embeddings To Document Distances 阅读笔记
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
可解释性论文阅读笔记1-Tree Regularization
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。