Effectively measuring, understanding, and improving mobile app performance is of paramount importance for mobile app developers. Across the mobile Internet landscape, companies run online controlled experiments (A/B tests) with thousands of performance metrics in order to understand how app performance causally impacts user retention and to guard against service or app regressions that degrade user experiences. To capture certain characteristics particular to performance metrics, such as enormous observation volume and high skewness in distribution, an industry-standard practice is to construct a performance metric as a quantile over all performance events in control or treatment buckets in A/B tests. In our experience with thousands of A/B tests provided by Snap, we have discovered some pitfalls in this industry-standard way of calculating performance metrics that can lead to unexplained movements in performance metrics and unexpected misalignment with user engagement metrics. In this paper, we discuss two major pitfalls in this industry-standard practice of measuring performance for mobile apps. One arises from strong heterogeneity in both mobile devices and user engagement, and the other arises from self-selection bias caused by post-treatment user engagement changes. To remedy these two pitfalls, we introduce several scalable methods including user-level performance metric calculation and imputation and matching for missing metric values. We have extensively evaluated these methods on both simulation data and real A/B tests, and have deployed them into Snap's in-house experimentation platform.


翻译:有效衡量、理解和改进移动应用程序的性能对于移动应用程序开发者至关重要。 在移动互联网全景中,各公司进行在线控制实验(A/B测试),使用数千个性能衡量尺度,以了解应用性能如何因果影响用户保留,并防范服务或应用倒退,从而降低用户的经验。为了捕捉性能衡量标准的某些特点,例如观测量巨大、分布偏差程度高等,行业标准做法是建立一个性能衡量尺度,以量化衡量A/B测试中控制或处理桶中的所有性能事件。在Snap提供的数千个A/B测试中,我们发现在计算性能衡量标准这一行业标准方法中存在一些缺陷,这可能导致性能衡量指标变化不明,以及意外地与用户参与度衡量标准不符。在本文中,我们讨论了衡量移动应用程序性能的这一行业标准做法的两大缺陷。一个原因是移动设备和用户参与的高度偏差,另一个原因是由于后期用户参与带来的自我选择偏差,我们发现一些行业标准性差,即计算性能测试/模拟用户参与率的变化。我们用两种方法都进行了精确地进行了计算,其中包括标准计算。

0
下载
关闭预览

相关内容

专知会员服务
40+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年6月12日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Design and Analysis of Switchback Experiments
Arxiv
0+阅读 · 2021年1月14日
On the Synchronization Power of Token Smart Contracts
Arxiv
10+阅读 · 2020年4月5日
Arxiv
3+阅读 · 2018年5月21日
VIP会员
相关资讯
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年6月12日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员