TikTok抖音国际版留存背后的数据和算法推演

2020 年 6 月 24 日 DataFunTalk


文章作者:姚凯飞

编辑整理:Hoh

内容来源:阅读以明智


导读:最近在朋友组织的创业群听到了一些前辈和同行讨论的话题,收获很大,拿出来分享给大家。这个话题就是TikTok在美国的留存率一年之内取得了大幅上涨,有哪些地方做对了呢?本文将站在算法工程师的角度做一些个人的猜想和推演,不吝拙见,以求抛砖引玉,望不妥之处请批评指正。

01

部分结论:TikTok的大幅上涨来源

1. 供给侧 ( 努力 )

  • 内容量大幅提升:主要来自于开放跟拍权限,加上低门槛创作工具和爆款内容的持续引流。

  • 内容审核效率的提升:机器审核准确率提高。

2. 运营侧 ( 努力 )

  • 海外团队的本土化运营能力持续在增强,local团队对内容生态的把控,更丰富多元化

3. 营销侧 ( 努力 )

  • PR品牌的持续曝光以及泛娱乐战略资源的深入

4. 匹配侧 ( 努力 )

  • 泛化的内容加算法可看性更强,留存也涨

  • 用户活跃度的升高,结合进一步泛化内容源 ( 低门槛创作工具和爆款内容的持续引流,刺激投稿和创作 )

5. 其它 ( 运气 )

  • 疫情期间,多出来的宅家线上娱乐时间,也是不可忽视的一大因素

  • 其它未洞察的点

02

拆分

1. 内力

如何判定哪些是曝款内容哪些是违规有风险内容,越早的识别爆款可以越早地给予流量,持续爆款新内容流入资源池;从供给端来说,持续的流量也可以让内容生产者的积极性提高,可以持续的从其它平台逐步迁移有生产能力的KOL或KOC;从消费端来说,让用户总能看到新颖、惊喜的内容,从而提升留存。从匹配侧来说,为用户快速找到感兴趣且优质的内容满足当前消费;为用户展现全方位泛化的内容;精细化地进行回访留存等长期建模;新内容的审核与爆款引流算法配合。

2. 外力

Local团队对于美国本土化的理解,对于持续内容生态的把控可以带来算法之外的东西;这一部分属于外力,通过外力推动数据的齿轮开始运转,后期就是算法和数据逐步带来良性循环;也可以认为是算法和数据中的专家知识。

PR、品牌持续曝光,内容生态的布局,为内容的生产和消费做铺垫。

可能抖音走在了飞轮效应那条路上,但是现在只在7或者8这个位置,将来想在美国突破1亿DAU,那需要在接下来的若干发展中继续踩准节奏。

03

数据与算法可以发力的点

借着上面的问题,今天想分享的是,这里面数据和算法可以做什么;如何审核出有风险的内容,识别优质的内容;识别出来了优质内容,如何引爆 ( 算法预测准确率不是百分百,如何及时止损 );精准匹配用户和内容,且在最大化短期匹配效率的同时如何兼顾长期留存 ( 让你嗨,但不能让你太嗨;玩游戏也是一样,太简单和太难都会让留存不好 );让有爆款能力的内容生产者,拿到更多的流量,提高其积极性 ( 这里谈论的更多是全站维度 );如何识别趋势,让虽然不是爆款内容生产者但是满足一定圈层的内容生产者,能够精准地触达其能够覆盖的用户并且获得那个圈层内的流量;泛内容生态下,如何在现有流量体系下做一定干预,给予流量或者限制流量。

要想变强不能有短板,短板就是你的生命线,有短板的越变越小,有长板的越变越强。

1. 如何审核出有风险的内容,识别优质的内容

相关技术:语音转文本, 标题、内容敏感词识别, 图像识别 ( 黄色、暴力、相似内容 ),新品爆款预测。

过上述技术对内容进行初步审核,然后进行小流量测试 ( 其关注的粉丝或内容匹配的类型背后感兴趣的人群 ),如果流量效果表现良好,再通过用户众包的理念对内容进行把控 ( 降低人力审核压力 ),推荐系统分发过程中引入举报途径。这里技术和算法的本质是通过算法和数据结合的方式,大幅提升信息密度,在海量内容被创作的时候,审核人力无须每个都做审核,而是对可能违规内容进行审核,如下图。通过人工检测和举报并被确认的违规内容,持续地数据积累,未来机器检测会越来越准。

爆款和优质内容的挖掘至关重要,因为这部分内容承载了平台大部分的播放量,也是吸引用户留存的重要载体。

产品通过算法和数据也可以一定程度上自动化地挖掘出可能可以引爆的内容点,比如通过类比电商挖掘模式中的种子自动化流程,如下图。

2. 识别出来了优质内容,如何引爆 ( 算法预测准确率不是百分百,如何及时止损 )

通过新品测试流程,将流量利用最大化,这里可以通过一定概率统计手段进行平滑 ( 同样是20%的点击率,一个曝光是100w,一个是100,后者相对不置信 ),在逐渐积累流量持续进行流量调整;因为你从低点击率上省下来给到了高点击率的商品上,这中间可以通过一些EE的策略或者简单的统计可以完成部分的工作,如下图。

这里面也涉及几个问题,就是内容类的产品,不像电商的商品,有很多内容具有较短的生命周期,特别是热点类、时政类的内容,或者优质内容衰退的过程,比如下图。

这部分可能成为爆款快速,但也会快速冷却,所以整套优质候选爆款内容需要持续不断地、快速地被识别出来,并快速获得流量;因为爆款普通内容也存在随着播放量和覆盖人群的上升,完播率及引流转化效率降低的过程(因为没有适合任何人口味的短视频),这时候也需要适时地将这部分流量打到新的爆款上;这些不是不好的内容,是内容已经过了时效或合适人群已经覆盖十之七八了,需要降温。

3. 精准匹配用户和内容,且在最大化短期匹配效率的同时如何兼顾长期留存 ( 让你嗨,但不能让你太嗨;玩游戏也是一样,太简单和太难都会让留存不好 )

可以借鉴下面的拆解方式。

我们以某天的匹配来看,首先DAU代表了当日的流量,当日我们需要做好匹配 ( 也就是y这个因子 ),其次我们需要更加注重的是x因素,n代表了累计效应。

换个角度,每日的DAU=新客UV+老客UV,这里面老客UV是前面公式x带来的,在互联网用户天花板明显的情况下,获客成本持续走高,老客维护就是如何在精准匹配的同时,让用户时常回产品看看。

从交互来看,全屏幕式沉入让用户尽可能沉浸,自动循环播放刺激人的视听,下滑切换让人获得即时满足,不可预测的内容提供间歇性变量奖励,强大的推荐机制个性化快速匹配用户实时需求,让用户上瘾。这中间需对内容和用户进行解构,提取出用户和内容背后的项目特征,然后找到合适的模型进行预估,最终以预估值进行排序和展现。

先说短期匹配效率上的发力点,我们可以通过算法和数据建模,来最大化目标量。流量分发权重可以进行干预,并且不同的干预手段会带来完全不一样的产品最终形态演变。

以快手举例

快手促使主播和粉丝进行更多交互。通过算法推荐,粉丝关注的用户的作品出现在发现页的可能性更高,动态功能让用户有类 似朋友圈的体验,且关注页和个人主页方便通知用户主播发布新作品和开始直播,因此快手和用户的互动更加频繁:快手用户刷关注页的比例高于抖音。未来快手希望将这一比例提升到80%。稠密用户关系网络意味着更高迁移成本。和抖音等侧重内容的平台相比,快手平台的迁移成本更高,用户留存度更高。注:本段以及下面2张图来自峰瑞资本-黄海老师的研究报告/公众号:黄海的消费业观察。

所以,相对而言快望流量更加扁平,做了一些流量的控制 ( 虽然头部流量还是聚集 )。

我们以电商来举例,x很大程度上会被平台的商品供应丰富程度、价格、履约/物流速度、后期商品使用、退换货等等后端服务所影响。内容领域相对电商更难具象化,可能是娱乐性、多样性、新颖性、惊喜性等,可以通过对若干指标数据化后,评估长期留存与相关短期指标的关系,最终在推荐或者搜索层面进行干预,比如下图多样性与长期留存的关系。

可以尝试在推荐系统中引入一定的多样性控制,可以带来长期指标的提升,尽量将模型带入去全局最优解。这部分的工作也是希望通过兴趣探索在用户某类兴趣衰减明显时,有其它主题内容可以承载用户接下来的时长,比如刚开始用户被漂亮小姐姐的视频吸引,进来以后有时尚、护肤、彩妆、美食、健身、旅行、影视等等其它内容持续地满足他,所以需要在他进来的有限次数中,发现内容平台上更大的世界。

4. 让有爆款能力的内容生产者,拿到更多的流量,提高其积极性 ( 这里谈论的更多是全站维度 )

首先你得对内容生产者进行分层,将平台内的内容生产者进行区分,并根据对平台最终的贡献将他们分层,如下图。

对平台内容生产者分层后,可以根据其流量配比进行调整,金字塔的底层需要被快速地识别,并将流量减少到可控范围内的最低;前2层需要被鼓励,特别是特色生产者需要流量倾斜,以保证其积极性,对于价值生产者所需流量不够的情况下,可以在非价值生产者内容流量中倾斜一部分。特色内容生产者可以类比第一个主题分享爆款种子内容筛选流程类似,可以通过部分种子特色内容生产者找到更多的特色内容生产者。

流量如何控制呢,我们可以看下分配流程,当然这个是借鉴淘宝的商品流量分配模式如上图所示。通过数据化和算法的方式先对整个流量体系进行拆解,将流量拆分成若干主要模块,并通过流量控制系统进行干预,可以实现用户时长、完播率、浏览深度不变的情况下,内容流量分布的调整 ( 至少电商中可以做到gmv不变的情况下,流量实现分配目标的80%-90% )。

逐步完成几类正反馈:

  • 初级反馈:点赞数、粉丝数;

  • 中级反馈:被推荐,获取到了更大的流量;

  • 高级反馈:对于优秀内容生产者,变现的可能变大。

5. 如何识别趋势,让虽然不是爆款内容生产者但是满足一定圈层的内容生产者,能够精准地触达其能够覆盖的用户并且获得那个圈层内的流量

在推荐系统中,由于算法模型是基于数据的,如果你不做小圈层的区分,很容易较大覆盖率的人群喜好会覆盖小圈层用户的兴趣,因为模型在训练过程中天然就是兼顾大概率的类别的,除非你对建模过程进行干预,比如对小比例的label进行加权等操作。

南抖音北快手格局的打破,或者快手进攻一、二线城市都是需要突破圈层,逐渐尝试将新圈层的人逐步拉进产品内部;同样B站也是,需要将非二次元爱好者逐步拉入夸大DAU;那如果没有干预或者一些做一些精细化的手段,很难有突破,因为每次引流进来的新圈层用户对老圈层的内容不满意,最终离开 ( 周杰伦入驻快手,前期进来的一、二线城市的用户留存好,过半个月基本留存就惨不忍睹了;抖音也有进攻快手腹地,但是留存差的情况 );这也是一般用户增长团队的一个非常重要的事情。

破圈层有三个事情要做,第一通过产品目标定位清楚需要扩的人群,或者通过站内数据分析发现潜力群体,第二通过深入地挖掘找到他们的一些兴趣点和话题,并开始进行内容延展,第三内容体系够完善加上更精准的分群推荐及体验的区隔,最终可以培养产品内新圈层的人群,只有这群人到达一定体量,接下来就是数据和算法的事情了,他们会通过内容和人群算法为他们带来个性化的体验。这里给一篇小红书在做15岁以下小学和初中生的留存的案例:

https://zhuanlan.zhihu.com/p/58241575

新圈层的需求如何发现呢,上述文章中有几种方案,一种方案是分析现有产品体系下某些关键指标低的群体,然后根据他们站内的行为,配合这批用户进来的初期,进行冷启动或者适合内容的筛选与补充。在很多年前你做产品,你的种子用户决定了你产品未来;现在这个阶段也是,只不过这个阶段,对于需要扩圈的产品来说,他们需要时不时地去维护新进来圈层的种子用户,并让他们消费和生产更多这个圈层喜欢的内容,带来圈层的扩大。

如何洞察呢?可以通过站内数据,比如搜索词、搜索主题环比变化情况 ( 见下图 ),用户消费内容效率的环比情况;分群再看上述指标的情况;

6. 泛内容生态下,如何在现有流量体系下做一定干预,给予流量或者限制流量

这一块类似商品的新内容体系方案,需要强制在流量侧给予倾斜,对新类型内容进行扶持;当然这里面其实也可以做到用数据和算法驱动,提升效率。

04

总结

数据和算法是0,初期的冷启动和运营是1,大于1还是小于1很关键,这个考验的就是创始人团队的能力;如果小于1,后面加0都是无用功,如果大于1,后面加零就是快速地增长。比如我所从事的电商领域,不只是前台的流量精准匹配 ( 推荐、搜索 ) 做好就可以了,你还需要有优质的货品,极快极好的履约 ( 物流、退换货 ) 等等,算法和数据只是其中一块,但是是产品成长路上重要的一块。

如何系统性地构建数据与算法体系,并跟其他构建系统的模块手拉手,构建飞轮效应,逐渐扩圈是接下来互联网产品持续增长的动力。

今天的分享就到这里,谢谢大家。


如果您喜欢本文,欢迎点击右上角,把文章分享到朋友圈~~


社群推荐:

欢迎加入  DataFunTalk 用户增长交流群 ,跟同行零距离交流。 识别下面的二维码 ,根据提示, 自动入群。
作者介绍:

姚凯飞,出海方向创业者。前 Club Factory 推荐&风控算法负责人,前阿里推荐算法工程师,多年电商及视频推荐经验,硕士毕业于上海交通大学,目前在跨境电商方向创业。

PS:想与老师交流沟通的小伙伴,欢迎关注 "DataFunTalk" 公众号,回复 "凯飞" 获取老师的个人微信二维码。凯飞老师已经开通了个人微信公众号,欢迎搜索“阅读以明智”关注凯飞老师的最新文章,亦可点击阅读原文,关注凯飞老师的知乎主页。

文章推荐:
用户画像技术及方法论
算法工程师如何应对业务方和老板的灵魂拷问?
万字长文解读电商搜索——如何让你买得又快又好
做推荐系统之余,我们该思考什么?

关于我们:

DataFunTalk 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100场线下沙龙、论坛及峰会,已邀请近500位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章300+百万+阅读,6万+精准粉丝。

一个在看,一段时光👇

登录查看更多
1

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
个性化推荐系统技术进展
专知会员服务
65+阅读 · 2020年8月15日
【干货书】现代数据平台架构,636页pdf
专知会员服务
250+阅读 · 2020年6月15日
专知会员服务
166+阅读 · 2020年6月4日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
197+阅读 · 2020年2月11日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
分析 | 抖音背后的计算机视觉技术
计算机视觉life
9+阅读 · 2019年5月31日
2019,再不做私域流量就晚了?
互联网er的早读课
16+阅读 · 2019年4月10日
视频内容理解在Hulu的应用与实践
AI前线
12+阅读 · 2019年2月16日
抖音和头条背后,字节跳动的AI实力有多强?
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
Arxiv
26+阅读 · 2018年9月21日
Paraphrase Generation with Deep Reinforcement Learning
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
相关VIP内容
个性化推荐系统技术进展
专知会员服务
65+阅读 · 2020年8月15日
【干货书】现代数据平台架构,636页pdf
专知会员服务
250+阅读 · 2020年6月15日
专知会员服务
166+阅读 · 2020年6月4日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
197+阅读 · 2020年2月11日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
相关资讯
分析 | 抖音背后的计算机视觉技术
计算机视觉life
9+阅读 · 2019年5月31日
2019,再不做私域流量就晚了?
互联网er的早读课
16+阅读 · 2019年4月10日
视频内容理解在Hulu的应用与实践
AI前线
12+阅读 · 2019年2月16日
抖音和头条背后,字节跳动的AI实力有多强?
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
相关论文
Top
微信扫码咨询专知VIP会员