在世界上最大的专业人才网络上运行A/B测试的5个经验

AB测试实践

作为世界上最大的专业人才网络,LinkedIn 每年都会运行数千个实验。通过内部的AB测试平台,已经推出,优化或舍弃了数以千计的大小特性。通过这些实验,我们学会了如何让 LinkedIn 的产品更好,以及如何让我们的成员更快乐。同时,我们积累了关于如何运行更好的实验以及如何利用实验来做出更好决策的经验。下面是增长列表的前5名。

#1.一次测量一个变化

不是说,只能一次测试一个变化,但你必须正确设计实验,以便能够一次测量一个变化。在 LinkedIn ,产品发布通常涉及多个功能或组件。 2013年对 LinkedIn Search 的一次大幅升级推出了针对不同产品类别的统一搜索。有了这项功能,搜索框就能足够智能,无需输入类别,如「人物」或「工作」或「公司」,就能找出查询意图。

 

然而,这不是全部。几乎搜索着陆页上的每个组件都被测试过,从左侧导航栏到代码段和操作按钮。一开始,实验把所有的变量集中在一起运行。令我们吃惊的是,许多关键指标都降低了。一次测试一个功能,以找出真正的罪魁祸首,是一个漫长的过程。最后,我们意识到,一些小的变化,而不是整个搜索着陆页本身,要为点击和收入降低负责。恢复这些功能后,整个搜索着陆页的用户体验数据变得积极,之后发布给每位用户。

#2.决定触发的用户,但报告所有用户。

通常一次实验只影响一小部分用户群。例如,我们想自动帮助人们在他们的 LinkedIn 个人资料上填写他们的专利,但并不是每个成员都有专利。因此,实验只会影响那些已经提交专利的成员,占5%左右。为了衡量这样能对用户带来多少方便,我们必须关注这个小细分群体,即“触发”用户。否则,来自该5%的用户的信号将在95%的噪声中丢失。然而,一旦我们确定专利是一个有益的特性,我们需要对总体影响做出“现实”的估计。一旦这项功能普遍推出, LinkedIn 的底线将如何改变?具有这样的“全站范围”的影响不仅可以比较实验的影响,而且容易量化 ROI 。

#3.实验组不应受实验结果的影响。

AB测试的基本假设是 A 和 B 组之间的差异只是由我们施加的变量引起的。很明显,我们需要确保实验里 A 组和 B 组的用户是没有区别的。检查任何预先存在的差异的标准方法是在实际的AB测试之前运行AA测试,其中两组用户都接受相同的变量。然而,同样重要的是确保用户组在实验期间保持“相似”,特别是在在线世界,因为实验人口通常是“动态的”。例如,我们测试了一个新功能,成员在他们的 LinkedIn 个人资料页面上收到一个小 banner ,鼓励他们探索我们的新主页。只有最近没有访问过首页的用户才有资格参与实验,并且在用户访问首页后动态更新资格。因为 banner 带来实验组中的更多用户访问首页,更多的实验用户随着时间的推移变为非目标用户。由于这些“额外”移除的用户往往比其他用户更活跃,实验中,我们人为地在 A 和 B 中创建了用户之间的差异。一般来说,如果实验人群直接受到实验结果的影响,我们很可能会看到偏差。这种偏差可能使实验结果无效,因为它通常压倒由实验本身产生的任何真实信号。

#4.避免将营销活动与AB测试相结合。

我们最近修改了“浏览我的个人资料”页面。产品团队希望通过AB测试来测量,改变是否确实更好,如果确实更好,那能好多少?营销团队希望通过电子邮件广告为新页面创建动态。这是一个很常见的情况,但AB测试和电子邮件营销如何共存?显然,我们只能向实验组发送活动电子邮件,因为对于控制组的成员来说,没有什么新的变化。然而,这样的运动会污染在线AB测试,因为它鼓励更多的成员从实验组访问。这些额外的用户往往较少参与,因此我们可能会看到关键指标的人为下降。最好在启动广告系列之前先进行AB测试。

#5.使用简单的经验法则来解决多变量测试问题。

多变量测试问题在线上AB测试中非常普遍。症状是不相关的度量似乎具有统计学意义。根本原因通常是因为同时检查了太多指标(请记住,我们为每个实验计算的指标超过1000个指标)。即使我们已经在内部做了多变量测试的主题培训,但是当一个指标出乎意料地显著时,许多人仍然不知道他们应该做什么。应该相信指标还是把它当作噪音?相反,我们发现引入一个简单的经验法则是非常有效的:对预期受影响的度量使用标准的 0.05 p-value 截止值,但对不是的度量使用较小的截止值,例如0.001。经验法则基于一个有趣的贝叶斯解释。它归结为我们相信在我们运行实验之前,一个指标会受到多大影响。特别地,如果使用0.05反映50%的先验概率,则使用0.001意味着弱约的信念 – 大约2%。

 

这些只是实验的几个最佳实践,但它们已被证明对 LinkedIn 的产品开发至关重要。正如我之前所说,AB测试和通过实验做出数据驱动的决定是 LinkedIn 文化中极其重要的一部分。它指导了我们如何以及为什么通过提供关于他们如何实际使用我们的服务的关键数据为我们的用户构建产品。通过遵循这五条,所有公司和行业的开发人员不仅能够对他们的产品做出更明智的决策,还能为使用它们的人们创造更好的体验。

 

本文由吆喝科技编译自:https://engineering.linkedin.com/blog/2015/11/top-five-lessons-from-running-a-b-tests-on-the-world-s-largest-p

6816 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。