目前信息流推荐中使用的内容理解技术,主要有两部分构成:1. 门户时代和搜索时代遗留的技术积累:分类、关键词以及知识图谱相关技术;2. 深度学习带来的技术福利:embedding。但是分类对于兴趣点刻画太粗,实体又容易引起推荐多样性问题,而 embedding 技术又面临难以解释的问题。这次主要介绍在信息流推荐中,腾讯是如何做内容理解克服上述问题的。主要包括:
概念体现了世界的知识,促进了人类的认知过程。从web文档中挖掘概念并构建相应的分类法是文本理解中的核心研究问题,并支持许多下游任务,如查询分析、知识库构建、推荐和搜索。然而,我们认为之前的大多数研究都是从Wikipedia或静态web页面中提取了正式的和过于一般化的概念,而这些概念并不代表用户的观点。本文描述了我们在腾讯QQ浏览器中实现和部署概念的经验。它通过挖掘大量的用户查询和交互式搜索单击日志,在符合用户兴趣的适当粒度上发现以用户为中心的概念。所提取的概念具有适当的粒度,与用户语言风格一致,并且是动态更新的。我们进一步介绍了使用以用户为中心的概念标记文档的技术,并构建了主题-概念-实例分类,这有助于改进腾讯QQ浏览器中的搜索和新闻提要推荐。我们进行了广泛的离线评估,以证明我们的方法可以提取出比其他几种现有方法更高质量的概念。我们的系统已经部署在腾讯QQ浏览器中。基于大量真实用户的在线A/B测试结果表明,将以用户为中心的概念引入腾讯QQ浏览器推荐框架后,feed用户的印象效率提高了6.01%。