编者按:Cheng-Tao Chu简要概述了统计假设测试、多臂老虎机(汤普森采样)方法后,揭示了多臂老虎机在实践中的优势。
随着精益创业和大数据的兴起,越来越多的公司开始拥抱A/B测试。尽管业界开始基于数据统计测试特性这一点很是振奋人心,但很少有公司意识到多臂老虎机这一优于传统统计假设测试的替代方案。本文将概述为何在大多数应用中,多臂老虎机优于假设测试。不熟悉为何基于数据测试特性很重要的读者,可以看看我之前写的博客文章 Bridging the gap between lean startup in theory and in practice。需要社会认同的读者,Google Analytics用的就是多臂老虎机方案。
A/B测试的假设测试的目标是查明观测到的转化率差异是否有运气以外的解释。标准方法如下:
计算零假设(null hypothesis)下的采样分布
计算采样分布下观测到的似然,并
将概率与预先确定的阈值比较
尽管初看起来很直观,实际上它需要不少统计学知识来恰当地设计试验及解释结果。例如:
如何约束第二类错误?
如何同时测试两个以上的实验组?
需要多少项观测?
正确的阈值是多少?
能不能提前查看结果并及早终止试验?
“多臂老虎机”这一名称描述了这样一个场景:一名赌徒面对着几台“单臂老虎机”,每台老虎机的期望返水不同。目标是最大化一系列拉杆操作的总回报。为了达成这一目标,多臂老虎机动态平衡通过拉动不确定的摇杆收集信息的代价(探索)和拉动已知回报丰厚的拉杆的累计回报(利用)。
在A/B测试的语境下,每台老虎机代表试验中的一个实验组,每次拉动摇杆代表一个实验组的一次曝光,累计回报代表累计转化。多臂老虎机问题有很多不同的算法,比如UCB、Epsilon-Greedy等,本文将聚焦于一种名为“汤普森采样”的算法。
汤普森采样的思路非常简单。该算法维护每臂的返水率的后验分布,按照在该后验分布下给定臂最优的概率,成比例地拉动拉杆,接着根据新观测更新后验。例如,对两个观测到转化率为10/150和5/100(转化数/曝光)的实验组而言,其后验转化率分布为Beta(10, 140)和(5, 95)。根据转化率,后续的测试应该在第一个实验组上进行,因为该组的转化率较高。但汤普森采样并不采用这种确定的方法,而是基于当前的后验转化率分布随机取样,决定在哪个实验组上进行,两者的概率分别为P(第一组是最佳实验组)和P(第二组是最佳实验组)。最后,根据新观测数据更新后验分布。致不熟悉贝叶斯统计的读者,贝塔分布经常用作伯努利分布(用来建模转化率)的共轭先验分布。
现在我们已经基本了解统计假设测试和多臂老虎机(汤普森采样),让我们比较一下两者。
汤普森采样更简单。 要恰当地解释统计假设测试,从业者需要对基本的统计学测试具有良好的理解,例如,提前查看结果需要了解功效分析、偏差修正,处理多实验组同样需要了解偏差修正,等等。另一方面,从业者只需理解基本的贝叶斯统计就可以理解汤普森采样。解释结果时,较简单的概念不容易出错。
汤普森采样直接估计哪个臂最优的概率。统计假设测试试图回答“假定所有实验组转化率相同的极端情形下,观测到当前状况的概率”。而汤普森采样则试图回答“给定这些观测,给定的每个臂最优的概率”。尽管这两个问题都是合理的,汤普森采样要容易理解得多,并自然而然地折衷第一类错误和第二类错误。
多臂老虎机通常更快收敛。 由于多臂老虎机方案是自适应的,识别最佳臂(如果它存在)所需的试验数通常远低于统计假设测试所需的试验数。然而,它也意味着,当所有实验组一样的时候,需要一个单独的停止标准。
多臂老虎机可以自然地推广至多实验组。 这是多臂老虎机真正出彩之处。由于多臂老虎机是自适应的,它可以很快决定哪个臂不太可能是最优的,并以较低的概率拉动这些较差的拉杆。另一方面,在统计假设测试中,每个实验组分配到的试验数目是一样的(由试验之前的功效分析决定)。
总结一下,在实践中,相比传统统计假设测试,多臂老虎机有许多优势。它通常更快收敛,误解的空间更小,能更好地推广至多实验组,需要调节的参数也较少。向认真对待A/B测试的创业公司强烈推荐多臂老虎机方法。
如果你喜欢这篇博客文章,可以在Twitter上关注我(chengtao_chu)或者订阅我的博客ML in the Valley。另外,特别感谢 Ian Wong(ihat)和Bob Ren (bobrenjc93) 审阅本文草稿。
原文地址:http://ml.posthaven.com/a-slash-b-testing-statistical-hypothesis-testing-or-multi-armed-bandit