比图文推荐更难,考拉FM如何实现车载音频个性化产品?

2019 年 4 月 12 日 AI前线

作者|Tina
编辑|Debra
AI 前线导读:推荐系统发展了二十年,极大地提升了主流应用的效率,亚马逊通过推荐系统销售收入提升 35%,Youtube 主页上 60% 的浏览来自推荐服务...... 到现在,各主流应用基本都用到了推荐系统。我们知道,在个性化推荐中,与用户的交互非常重要。比如在淘宝购物中浏览和购买的物品,以及点击的“喜欢”和“不喜欢”,都会成为提升推荐精准度的关键。但是在车载环境中,为了安全起见,主动用户行为很少,这种推荐系统产品构建好的关键是什么?一直深耕车载音频领域的考拉 FM 是一个典型案例。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

2013 年 6 月正式上线的考拉 FM(去年升级改名为听伴)是一家音频内容分发平台,拥有大量的音频内容资源,每日服务全国数百万的车载收听用户。最开始他们通过手机与车机互联的方式,向车主提供车载特色精品内容。但由于交互路径过长,通过手车互联来映射内容的方式,用户活跃率并不理想。随后听伴改变了策略,通过前装的方式与车厂合作,将音频应用预装到车机里,同时提供内容推荐算法应用,为听众提供想听的内容。

听伴的推荐从场景化与智能电台流两方面着手。比如长时间开车是一件枯燥的事,遇到堵车容易产生焦躁情绪,这时候就需要播放一些娱乐放松性的内容。场景化是基于车载特点,打造专属内容库,结合车主的时间 + 地点 + 人物的个性需求,分场景打造内容。听伴副总裁李建刚表示:“我们有一百多个场景,在不同的场景下推荐规则不一样。不同的天气、地点、路况,推荐内容都不一样。举个例子,车主在四环上开车,路况很拥挤,听伴会自动推荐一些堵车时车主爱听的内容。另外,早晚高峰的场景差异是很明确的。做到这一点非常难,比图文要难,这也是听伴非常核心的技术。

在手机上用户可以通过点播专辑收听,换节目的成本比较低,随时可点击切换到下一个。在车上并不方便“点播”,用户在不同专辑之间切换的操作很麻烦。这时候就需要流式收听。流式收听类似于 Feed 流,基于这一点听伴做了独有的智能电台。手机上大家都是点播,在找特定节目,电台流不会受欢迎。但对于车载,电台流这个形式却是最合适的。智能电台以车主画像为基础,结合场景化,用个性化推荐进行主动推送,用语音进行交互。

李建刚曾介绍(http://www.cheyun.com/content/22854),听伴在北美设有专门的实验室研究个性化推荐,他们的音频个性化推荐大体流程分四步:

  1. 用户标签:由程序初步给节目打上标签,编辑团队再次人工复检标签的质量,维度的完整性等。

  2. 用户画像:通过汽车厂商初步共享的用户画像信息(脱敏后,不涉及隐私),比如性别、年龄、城市等标签帮推荐引擎冷启动。

  3. 用户行为:用户红心 / 完整收听了某一档节目 / 语音主动搜索 / 主动点播被视为正向反馈;用户经常跳过某一档节目被视为负向反馈。

  4. 特征维度机器精排:通过机器学习验证所有特征维度的有效性,在粗排候选集的基础上通过特征维度的打分对候选结果进行精排。输出精排结果即为实时推荐的节目单。

最初在车载端使用的是手机端一样的一套推荐模型。但车载场景特殊,后来发现推荐的结果非常收敛,覆盖率和多样性都出现了问题。经过分析,发现是因为交互少导致的。对于如何趟过这个坑,李建刚说:“针对这种情况,我们就摒弃了手机端的那套基于用户主动行为的推荐模型,而重新去思考、开发针对车载端这种用户少交互,更多伴随式收听的推荐模型。在这个过程中,大数据对我们构建推荐模型起了及其重要的作用。基于考拉十多年车载音频娱乐服务的数据,我们针对数百万车载用户行为做了挖掘与学习,产生了非常有价值的结果”。针对交互的问题,未来听伴会加入语音交互。他表示“一个推荐系统中,算法、交互、数据都是极其重要都因素,但最关键的还是需要对使用场景的深入理解”。

InfoQ:个性化推荐产品在听伴的定位是什么样的?重要性程度如何?听伴有哪些利用推荐系统技术的频道?

李建刚: 在车上,用户的交互成本非常高,主动交互的频次很低,要让用户有优质的收听体验,个性化推荐就非常重要,所以基于车载场景的音频个性化推荐是我们非常重要的产品。

和手机上的展示类推荐相比,音频的推荐会更复杂。

手机端的推荐模型,我们主要基于用户反馈,为用户发现和展示内容;但在车载端,我们必须根据车载伴随收听的特性,进行音频流式推荐,这种推荐用户不会主动点击,推荐出来的内容,直接给用户收听。因为没有用户主动点击的行为,要有好的体验,对推荐的要求非常高。

我们的推荐产品,主打两款智能网联车载音频新品 K-radio 和品牌电台。K-radio 以场景化 + 智能电台流技术给用户提供简单、便捷的车载音频娱乐服务,拥有车载直播互动、AI 电台流,多源内容融合、娱乐语义满足、帐号云端互通五大核心能力。它的特点一是可以私有化部署,用户数据部署在车企自有服务器,隔离起来以保护用户隐私;二是支持 SDK+APP+ 车载桌面多种合作模式,同时可以很方便地集成;三是一站式音频娱乐信息服务解决方案,可以将音乐、电台整合到一起收听。

InfoQ:一些人也用过手机上的 FM,那么车载端 FM 和手机 FM 相比有哪些差异?

李建刚:我们同时有做车载和手机端,手机跟车载差异很大,场景、使用方式、服务形态都不一样。手机是个相对专注的场景,主动点播行为会更多。在车上点播收听偏少,更多是伴随式被动收听。手机上进行推荐的核心逻辑是挖掘用户行为,召回用户会喜欢的内容。基于所有用户对推荐结果的点击行为,进行排序优化。车载上进行推荐的 核心逻辑是通过建立车载娱乐知识图谱,召回特征相关的内容,基于用户自身主动行为,优化推荐结果顺序



手机 /PC 推荐 车载推荐
用户意图 从海量数据中,帮助用户决策,找到想要的信息 在有限的路途时间里,推荐优质内容
行为特点 注意力集中,隐式 / 显式主动行为丰富 注意力在驾驶上,主要行为是伴随式被动收听;用户行为很少
时间 随时随地 通常驾车时间不会太长
形式 基本以点播为主 流式,持续收听
内容 广度长尾内容 头部精品内容
维度 用户和行为 用户、行为、车和场景
模型特点 个性召回,共性排序 共性召回,个性排序
核心逻辑 挖掘用户行为,召回用户会喜欢的内容。基于所有用户对推荐结果的点击行为,进行排序优化 通过建立车载娱乐知识图谱,召回特征相关的内容。基于用户自身主动行为,优化推荐结果顺序。

InfoQ:推荐的内容如新闻类、情感类和音乐类,针对不同的内容,技术上最大的区别在哪里?

李建刚:

新闻类:时效性很强,选择基于分类、主题、关键词等维度表示一篇新闻;通过自然语言处理,提取新闻要素,结合知识图谱消岐,另外新闻的消费时间属性很强,不同的时间段对新闻类型的需求也是不同的,比如早间希望听资讯内容,晚上喜欢听娱乐内容等。

情感类:深挖用户画像,尤其是社会方面的特征(婚姻、家庭、社交)。

音乐类:挖掘用户开车出行时的场景、车速、位置甚至天气等,结合音乐内容的场景化表示,推荐出此时此刻最符合车载下的音乐内容。

InfoQ:一个典型的音频推荐系统架构是怎么样的?您是否能给出图片来解释?

李建刚:

我们的推荐架构从底层到上层,分为数据平台、数据挖掘和推荐投放。

数据平台 提供用户行为数据的存储、分布式 / 流式计算的能力。

数据挖掘 是利用数据平台的大数据,结合机器学习和自然语言处理等技术,构建用户画像、训练模型等中间数据,并提取领域知识。通过 nosql、搜索引擎、key-value 缓存等中间件提供给推荐投放系统。

推荐投放,是基于 Actor 模型的的并发框架 akka,利用数据挖掘层的训练模型和知识图谱,提供高可用、可扩展、低延迟的结果内容投放能力。

InfoQ:音频推荐系统,一些先驱是如何做的,考拉 FM 做过哪些独特尝试?

李建刚: 音频领域做得比较多的,是针对歌曲的推荐。目前流行两类模式:第一类模式是专家对歌曲进行多维度标记,然后基于这些标记做相似度计算并进行推荐,譬如 pandora 就采用了这种模式。第二类模式是基于协同过滤算法进行推荐,譬如网易云音乐就采用了这种模式。

但音频内容,和歌曲还是有较大差异的,譬如用户很少重复收听同一段内容,但会反复听同一首歌。所以对音频内容的推荐,和歌曲推荐就会不一样。而且在车载端,用户的行为相对较少。因此为了更精准地满足用户的需求,一方面,我们独创了共性召回、个性排序的推荐模型。另一方面,我们把用户场景纳入了推荐模型里,让场景成为推荐维度里的重要因素。

InfoQ:音频推荐系统中,跟踪用户的偏好主要是通过隐式的方式进行获取。而听伴有细分到上百个不同场景,那么如何确定不同情景,根据哪些因素判定情境,并进行个性化推送并满足听众的不同需求的?

李建刚: 场景推荐,是听伴针对车载行为独家推出的内容推荐产品。车载行为和手机端行为并不一样,用户需要专注于开车,行为被车载场景所限制,对屏幕和内容的控制力都大为降低。我们针对这种情况,从推荐逻辑及内容层面,都做了针对性的优化。

针对场景的推荐,主要从用户属性、车辆属性,车主当前所处的开车场景等多个维度,去做内容的推荐。为了能完整的用户画像、场景等,我们除了利用用户的收听数据之外,我们还需要和车的信息深入的结合,从各个维度信息挖掘用户当前的状态和驾车场景,全面了解用户画像和当下需求。为了精准推荐内容,我们会根据几十个不同维度的特征进行判定,比如时间、天气、路况、车速、目的地、车主心情、乘客情况等。比如,我们可以结合位置信息和区域天气,推荐不同天气场景的电台内容;还可通过 LBS 信息及衍生出的车速、轨迹信息来判断用户的行驶状态,是城区还是高速公路,是通畅行驶还是拥堵状态,以此推荐适合不同心情的音频内容。

InfoQ:接上,针对不同场景,听伴如何将音频内容进行分类、相关性判定、标定、评分、排序的?

李建刚: 不是所有音频内容,都适合在车载场景进行收听。譬如恐怖惊悚类,就不适合夜晚开车的情景去收听。有些长篇内容,也不适合短途开车行为收听。但在长途驾驶时,类似人物传记等的长篇,就会有用户去收听。因此我们会从声音及内容两个维度,做细致的梳理,包括声音及情绪、内容类型、上下文关系等特征。

InfoQ:(车载)用户行为分析主要是哪几方面。依行为分析作出什么 action?

李建刚: 我们主要分析用户的内容选择、内容订阅、内容切换、收听时长、完播率、语音搜索等行为。所有的行为都会作为用户画像特征的计算依据,经过离线或实时计算,从而优化用户画像。

InfoQ:听伴如何度量推荐结果?通过哪些度量方法?

李建刚: 推荐流量下,可以通过如下指标评估:完播率,点击率,播放时长,收听留存,日总负反馈次数等.

InfoQ:构建一个优秀的音频推荐系统产品,您觉得最关键的成功因素是什么?

李建刚: 对于一个成功的推荐系统来说,算法、内容和产品策略,三者缺一不可。但是最关键的还是需要对使用场景的深入理解,如果不深入理解用户的场景,一定不能满足好用户的需求,对我们来说,车载场景和手机场景就有非常大的区别,完全照搬手机推荐的场景肯定不行,所以我们针对车载场景的独特特性,设计了一套适合车载的推荐系统,已经在用户那里得到了很好的反馈。同时,一个推进系统一定需要持续迭代。基于数据的反馈,不断优化内容、产品策略及算法,就可以让推荐产品持续的进步。

InfoQ:未来计划里,您们最想攻克的推荐系统问题是什么?

李建刚: 在车载端的用户行为,与手机端 /pc 端完全不一样,因此不能用手机端或 pc 端的推荐模型来做。针对车载端,我们思考了很多策略,构建了很多的模型,但针对车载行为的场景化推荐及有多个乘客时的推荐,是我们最希望取得成功的领域。尤其是开车行为,与很多因素相关,譬如车况、天气、速度、目的地等,而不仅仅是用户兴趣或意图相关联。如何把各个因素融合进推荐模型里,去优化推荐结果,是我们重点关注的。

本文系 “推荐系统”专题系列文章之一:

进击的下一代推荐系统:多目标学习如何让知乎用户互动率提升 100%?

阿里妈妈新突破:深度树匹配如何扛住千万级推荐系统压力

你也「在看」吗?👇

登录查看更多
1

相关内容

FM 2019是正式方法欧洲(FME)组织的系列国际研讨会中的第23次,该协会是一个独立的协会,旨在促进软件开发正式方法的使用和研究。官网链接:http://formalmethods2019.inesctec.pt/?page_id=565
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
97+阅读 · 2019年12月14日
可解释推荐:综述与新视角
专知会员服务
111+阅读 · 2019年10月13日
怎样用声纹识别,提升智能硬件产品的用户体验?
人人都是产品经理
6+阅读 · 2018年8月27日
一天造出10亿个淘宝首页,阿里工程师如何实现?
机器学习研究会
5+阅读 · 2017年12月20日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
43+阅读 · 2017年10月31日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关资讯
怎样用声纹识别,提升智能硬件产品的用户体验?
人人都是产品经理
6+阅读 · 2018年8月27日
一天造出10亿个淘宝首页,阿里工程师如何实现?
机器学习研究会
5+阅读 · 2017年12月20日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
43+阅读 · 2017年10月31日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
相关论文
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
5+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员