赠书 | Google、Bing、抖音、淘宝等巨头如何做AB实验的？

2022 年 9 月 13 日 CSDN

【CSDN 编者按】2000年，Google首次将传统AB实验引入到互联网产品改进评估中，用于测试搜索结果页展示多少搜索结果更合适。虽然这次AB实验因为搜索结果加载速度的问题失败了，但是这次AB实验是一个里程碑，标志着在线AB实验的诞生。从那以后，AB实验被广泛应用于互联网公司的优化迭代。

据统计，Airbnb（市值1000亿美元）每周有超过1000个实验，Facebook（市值10000亿美元）每天在线的实验超过10000个。一个公司在线AB实验的数量也在一定程度上反映了这个公司的规模、数据驱动文化的成熟度。

本文将介绍AB实验的典型应用场景和一些经典的案例，通过案例帮助读者更加直观地认识和理解AB实验原理和价值。

AB实验应用场景

AB实验被运用到了产品优化的方方面面。在众多应用场景中，有三类非常典型。

1. 推荐类场景

信息流推荐、电商购物推荐、音乐推荐、视频推荐等都属于推荐类场景。推荐系统中的推荐算法，特别是现在广泛应用的深度学习等模型，本身就具有很强的黑盒属性。优化一个特征、一个模型、一路算法、一个参数之后，用户体验如何，是不是向着期望的目标方向移动，都是无法简单通过经验来判断的，通过AB实验才能知道。如果不使用AB实验进行评估，很难有其他手段验证新推荐策略的效果。这个场景中，AB实验和推荐系统是相生相伴的，有推荐系统就必须有AB实验。

2. 运营类场景

运营活动包括场景的拉新促活（吸引新用户，活跃老用户），各种运营活动中投放的红包、优惠券、短信等。一般这类活动都能带来立竿见影的用户增长或者成交量增长。更为重要的是，从长期来评估，这些投入是否带来了总的正向RIO。在实际中，很多活动带来的增量是短暂的，用户的长期留存效果往往低于自然流量的长期留存。如果没有AB实验的量化，很难说清楚这些活动真实的长期收益。

3. UI设计和交互类场景

在UI设计和交互类场景中，由于按钮、颜色、款式、字体等有太多的选择，而每个人的偏好不同，以至于在产品内部很难达成一致，更不用说面对不同的使用人群。究竟哪个方案是最优的，也只有通过实验的方式进行量化才最具说服力。在没有使用AB实验之前，UI设计师经常面对各种挑战，有人说字体太大，有人说字体太小，往往谁都很难拿出有说服力的证据。而且有的时候由于变化过于细微，肉眼都难以分辨，比如Bing的标题色彩的UI实验。采用AB实验以后，大家就不会因为自己的审美而争执不下了，简单地把AB实验的数据结果呈现出来就可以做出决策。

这三类场景非常有代表性，分别代表了算法优化黑盒属性、长短期综合收益ROI、感性决策众口难调这3个在产品优化过程中的典型问题。当然，AB实验适用的场景并不局限在这三类，满足实验基本条件的产品问题基本都可以采用AB实验来解决。表1中总结了常见的实验类型，以及实施AB实验的建议程度。注意，这只是常规情况下，结合实际应用中考虑各种实际情况的一个相对建议程度，仅供参考。

表1 不同实验类型的AB实验建议程度

从产品研发流程来看，基于AB实验的研发流程相比传统产品的研发流程，其优势是全方位的，如表2所示。

表2 基于AB实验的产品研发流程的优势

AB实验应用案例

本节通过几个案例来介绍AB实验在实际应用中发挥的作用和价值。

1. Bing案例

2012年，Bing的一个员工建议改进广告显示方式，将标题下的第一行文字合并到标题行，形成一个长标题行。由于这个方案开始并不被看好，因此优先级较低，被搁置了6个月，之后因其代码难度较低而被实施，并投放给真实用户进行评估：随机向一部分用户展示新的标题布局，将用户与网站的互动记录下来，包括广告点击和由此产生的收入。

实验开始几小时后，一个“收入过高”的警报被触发，表示新标题布局的广告产生了太多的收益。这样“好得难以置信”的警报非常有用，因为这通常表明出现严重的漏洞，比如收入情况被记录了两次，或网页只有一个广告显示，而其余部分被破坏了。然而，对于这个实验来说，其增加的收入是有效的，Bing的广告收入增长了惊人的12%。在没有损害关键用户体验指标的情况下，当时仅在美国就转化为每年超过1亿美元的收入增长。这个实验因为效果太好而令人难以置信，所以在很长一段时间里被重复做了多次，结果都是大幅的收入提升。

这个实验的价值不仅在于获得了实验本身的成功，同时展示了在线AB实验的几个关键问题。

直觉和经验通常难以评估一个创意的价值。一个可以创造超过1亿美元的简单改变，却被推迟了半年。
微小改变也可能带来巨大影响。对于一个程序员来说，几天的工作就能带来1亿美元的ROI是极其罕见的。
极少有能够带来巨大效果的实验。Bing每年有超过一万个实验，像这样通过简单改变带来巨额收益的情况，近年来仅此一次。
友好、强大、易得的实验工具是低成本实验的基础。Bing的工程师可以访问微软的实验系统EXP，这使得科学评估变得很容易。
整体评估标准十分清晰。在这个实验中，营收就是OEC的关键点。只关注营收是不够的，有可能导致网站上广告横飞，这无疑会影响用户体验。Bing使用OEC来衡量收益和用户体验指标，包括每个用户的会话次数（用户流失还是用户黏性增加）和其他几个组成部分。关键在于，营收大幅增长的同时，用户体验指标没有明显下降。

Bing的实验相关团队由数百人组成，负责每年将单个OEC指标提高2%。这2%是每年做的所有实验效果的总和。大多数改进都是逐个实验进行的，而且大多数改进程度轻微，甚至有些迭代的版本的效果是负的。

对于产品来说，重要的不仅是业务指标，还有产品性能。2012年，Bing的一名工程师改变了JavaScript的生成方式，大大缩短了发送给客户端的HTML代码的长度，从而提高了性能，AB实验也显示了惊人的指标改进效果。Bing做了一个跟踪实验以评估对服务器性能的影响，结果表明，性能改进还显著改善了关键用户指标，比如服务器加载服务的时间减少了10ms，此项性能改进带来的收入提升的部分就足以承担工程师全年的成本。

2015年，随着Bing搜索性能的提高，当服务器在不到一秒的时间内返回第95个百分位数的结果（即95%的查询结果）时，有人质疑性能提高是否还有价值。Bing的团队进行了后续研究，关键用户指标仍有显著提高。虽然对收益的相对影响有所降低，但Bing的收益在这段时间里得到大幅提升，每1ms的性能提升都比过去更有价值，每4ms的改进所带来的收入可以支付一位工程师一年的工资。多个公司都进行了性能实验，结果都表明性能提升非常关键。在亚马逊，100ms的减速实验使销售额下降了1%。Bing和Google的发言人在2009年联合发表的一篇演讲揭示了性能对关键指标的显著影响，这些关键指标包括不同的查询、收益、点击、满意度和点击时间。

减少恶意插件也能提升产品体验。虽然广告是一项利润丰厚的业务，但如果用户安装的免费软件包含恶意插件，这些恶意插件就会污染网页上的广告。使用恶意插件的用户不仅页面上被添加了多个广告，而且通常是低质量、不相关的广告，产生了糟糕的用户体验。微软对380万潜在受影响的用户进行了AB实验，结果显示当实验组通过控制权限减少了恶意插件的使用后，实验组用户的所有关键指标都得到了改善，包括每个用户的访问量。此外，用户搜索能更成功、更快捷地点击有用的链接，年收入也提高了数百万美元。

2. Google案例

Google在2011年启动了改进广告排名机制的实验。开发工程师测试了改进后的模型，他们进行了数百项AB实验，并且进行了多次迭代。有些实验横跨所有市场，有些用于特定市场，以便更深入地了解对广告客户的影响。功能的巨大改动，加上AB实验的帮助，最终使得Google巧妙地将多个功能进行组合，提升了广告用户的用户体验。Google以更低的单个广告费用获得了更好的广告效果。

2016年，Google对搜索页面的链接颜色进行了测试。当时许多用户反映，当自己输入词汇或短语时，大部分用户会看到10条链接，链接名为蓝色，网址为绿色，有一部分用户看到的链接名是黑色。这已经不是Google第一次对链接颜色做AB实验了，重视搜索结果页面颜色的Google经常面向数亿网络用户实时测试多种颜色的效果。在更早的时候，Google就开始测试不同深浅的蓝色，整整测试了41种蓝色，最终筛选出了指标表现最好的，而选用这种蓝色要比其他蓝色每年多为Google带来两亿美元的收入。

3. 奥巴马竞选案例

2012年，奥巴马数字团队对其竞选筹款策略进行了全方位的优化，从网页到电子邮件，无一例外。在20个月的时间里，团队进行了约500个实验，最终将捐赠转换率增加49%、注册转换率增加161%。他们曾策划过一次推广活动，为支持者赢得与总统共进晚餐的机会。在在线表单的设计方案上，研究小组实验了一种流线型文本格式的表单和一种带有总统图像的表单。AB实验结果显示，后者让参加抽奖的捐款人数增加了6.9%。

4. 亚马逊案例

2004年，亚马逊在主页上发布了一个信用卡优惠活动。这项业务虽然单次点击收入很高，但点击率很低。该团队进行了一个AB实验，将这项优惠报价移动到用户添加商品后看到的购物车页面，页面上显示了简单的数学计算，突出显示用户如果使用优惠将节省多少费用。因为向购物车添加商品的用户有明确的购买意图，所以该报价显示在了正确的时间点。AB实验表明，这个简单的改变使亚马逊的年利润增加了数千万美元。亚马逊的Greg Linden创造了一个基于用户购物车中的商品展示个性化推荐的模型。当用户添加某个商品时，系统会出现类似商品的推荐。Linden觉得测试模型看起来很有潜力，而一位营销高级副总裁坚决反对，声称它会分散人们的注意力，让他们不愿意下单支付。Linden因此被禁止继续研究这个问题。尽管如此，他还是进行了一项AB实验，结果是这一功能以巨大的优势胜出，最终购物车推荐功能上线，目前国内的主流电商平台都复用了这一功能。

5. 抖音案例

抖音是字节跳动公司旗下一款创意短视频社交软件。字节跳动非常重视AB实验，其实验平台每天新增约1500个实验，服务400多项业务，目前累计做了70万次实验。从产品命名到交互设计，从改变字体、弹窗效果、界面大小，到推荐算法、广告优化、用户增长，抖音把AB实验应用到了每一个业务和每一项决策中。

外界很关心“抖音”名字的由来，这其实就是AB实验的结果。当年字节跳动做短视频产品时，有很多候选名字，字节跳动将产品原型起成不同的名字、使用不同的Logo，在应用商店做AB实验，在预算、位置等条件保持一致的情况下，测算用户对产品名字的关注度、下载转化率等指标表现。AB实验帮助字节得到了名字的排名，当时“抖音”排到了第一。后来结合其更符合长期认知、更能体现Logo形态的特点，“抖音”之名就此确定。充分地进行AB实验，是一个能够在很大程度上补充信息的过程，能够消除很多偏见，反映客观的事实。

进入抖音App时，可以看到3个视频推荐流，一个是基于位置的“同城”标签栏，一个是基于关注关系的“关注”标签栏，另一个是基于兴趣推荐的“推荐”标签栏。把哪个标签栏作为用户进入时的默认内容，用户体验更好，产品的核心指标表现更好呢？通过AB实验的方式，对照组用户默认进入“关注”、实验组1的用户默认进入“同城”、实验组2的用户默认进入“推荐”，最后对比各组的实验数据，选出用户在哪个组的指标表现更好。

通过实验结果发现，有一些用户喜欢默认关注，有一些用户喜欢默认推荐，有一些用户喜欢同城推荐，如何才能达到最优效果呢？这个问题也可以通过AB实验的方式进行验证。实验可以这样设计，首先根据用户的特征以及历史偏好，分别计算出进入“关注”和“推荐”这两个标签栏的权重值，比如有的用户的关注量比较大，关注的内容也比较丰富，历史数据表明他们也更喜欢观看自己关注过的内容，这个情况下，“关注”标签栏就会获得较高的权重，成为默认的标签栏。如果用户关注的对象比较少，更愿意通过平台推荐发现一些新鲜的事物，这种情况下，“推荐”标签栏就会获得较高的权重。实验可以设计为如下几组。

实验组1：默认进入“推荐”标签栏。
实验组2：默认进入“同城”标签栏。
实验组3：根据用户各个标签栏的权重决定进入策略。
对照组：默认进入“关注”标签栏。

6. 淘宝案例

电商网站淘宝网每天也在进行着各种各样的实验，一般情况下，我们都感知不到正在被实验。就像链接

https://detail.tmall.com/item.htm?spm=a230r.1.14.14.498e4a519c23Vi&id=610851809895&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=2

一样，字段abbucket是分配给实验组用户的，abbucket=2是分配给对照组的。

移动互联网时代，每天我们都使用着各种各样的网络软件产品，进入产品各种各样的实验中。其实每一位产品用户每天都在帮所使用的产品做着AB实验，只不过用户在一项实验中只会获得一个特征，无法同时获得其对照的特征，而且用户被分到什么组是完全随机的，用户对实验是无感知的。这种随机性、无感知性也在一定程度上保证了AB实验的客观性和可信度。

福利时刻

本文节选自《AB实验：科学归因与增长的利器》一书，版权归机械工业出版社所有。

CSDN联合机械工业出版社赠书了，从关注CSDN公众号的小伙伴抽取5位赠送《AB实验：科学归因与增长的利器》一书。

在CSDN公众号后台回复『增长』或者点击下方小程序，即可参与抽奖，开奖时间为9月15日中午12点！

— 推荐阅读 —

   
   
     
    
    
      ☞抖音高速成长的秘密？这条“生产线”回答一切
   
   
     
   
   
     
    
    
      ☞李彦宏给创新员工发放2000万奖金；iPhone 14系列新机涨价后，电池维修费也涨至748元|极客头条
   
   
     
   
   
     
    
    
      ☞与智能汽车相见恨晚的SOA到底是什么？