A/B测试算法大揭秘】第三篇:如何分析试验数据(下)

face93e81682cd058316edf25085d290_b

在之前的文章中,我们说过分析处理A/B测试收集来的数据的主要方法是假设检验,而假设检验的决策规则是由 P-value 和小概率标准 α 共同组成的。

 

那么今天,我们就将着重为大家介绍 P-value 究竟是什么、它是如何计算的,以及 P-value 在A/B测试中需要避免的问题又有哪些。

P-value 定义

P-value(以下简称P值),又称“显著性水平”,它是指在原假设为真的条件下,样本数据拒绝原假设事件发生的概率,可以用来评估假设检验中最关键的第一类错误的概率。

 

今年3月,美国统计协会(ASA)在其官网上发布了《关于统计显著性和P值的声明》,进一步阐释了 P 值的概念和用处:

1)P 值可以表达的是数据与一个给定模型(也就是原假设下的模型)不匹配的程度;

2)P 值并不能衡量某条假设为真的概率,或是数据仅由随机因素产生的概率;

3)科学结论、商业决策或政策制定不应该仅依赖于 P 值是否超过一个给定的阈值;

4)合理的推断过程需要完整的报告和透明度;

5)P 值或统计显著性并不衡量影响的大小或结果的重要性;

6)P 值就其本身而言,并不是一个非常好的对模型或假设所含证据大小的衡量。

P-value 的计算——T检验

P 值的计算公式取决于假设检验的具体方式,常用的假设检验方法有Z检验、T检验和卡方检验等,不同的方法有不同的适用条件和检验目标。

 

A/B测试中是用对照版本和试验版本两个样本的数据来对这两个总体是否存在差异进行检验,所以适合使用 T 检验方法中的独立双样本检验 (independent two-samples t test)。通过T分布理论来计算相关的概率水平,也就是 P-value 的值。

 

T 检验的计算公式,首先通过来公式计算出统计检验量 Z 值,公式中的相关组成因素就是:两个版本的各自均值、方差(标准差),以及样本的大小,从而推算出统计量的 Z 值是多少。

2eeecdd25917f288db5f5509ea2ecc00_b

然后通过 t 分布(大样本情况下近似正态分布)的公式计算得出和 Z 值对应的 P 值,阴影部分的面积就是 P-value 的值。

3

 

P 值算出来之后,我们就可以根据P值按照前面介绍的假设检验决策规则来判断这两个样本均值的差异是否显著了。

P-value中的常见错误

A.统计显著=效果显著=效果的商业价值?

这个式子的意思是:P值只代表了样本数据与原假设之间有多不一致,并不能代表你所发现的效应(或差异)的大小。

 

尽管研究者们在很多情况下都希望计算出零假设为真的概率或是数据由随机因素产生的概率,很可惜这两者都不是P值的事。P值只解释数据与假设之间的关系,它并不解释假设本身。即,不论P-value的值有多小,也只能告诉你两个版本间是否存在差异效果,并不能得知差异效果究竟有多大,更不能告诉我们这效果是否具有实际价值。

 

例如,我们通过A/B测试对一个资源耗费10倍以上的推荐算法进行优化,得到 p 值=0.001,说明这次的试验结果是显著的。而试验的效果,只对收入提升了万分之一。

 

当资源耗费增大了10倍或更多时,收入只得到了非常微小的提升,那么从整体看来这个优化带来的商业效果其实是非常不显著的。因此不能从 P 值来判定改动所带来的商业效果。

 

B.一旦P≤α,就立刻得出结论?

 

这是 P 值一种比较经典的错误使用方式:持续观察和检验 p 值(multiple testing) ,一旦 p 值小于 α 判定标准(即统计显著),就停止试验得出结论。事实上,这样的会导致很高的第一类错误发生率。

 

以 Airbnb 的某一个A/B测试为例,当试验开始运行后,持续每天都观察试验数据的情况和p值,并绘制出以下图表。可以发现,当试验运行到第7天时, p-value 的值第一次小于 α 判定标准,实验结果显示显著。但是过了一段时间之后,p值并没有稳定下来,甚至一度增大到实验结果显示不显著。也就是说,单纯凭借 p-value 值来判定实验结果的显著与否,是不太可靠的。尤其是在试验刚开始的前7-10天之内,单纯依靠 p-value 值来得出版本差异的判定,出错的概率是非常大的。

 

以上就是关于 P-value 的介绍。如果在阅读的过程中,你对 P 值有了更加深入的了解,那就是我们在这篇文章上的最大成功。最后想说的是, P 值并不是数据分析的终点,所有决策的过程都应该多个因素综合考量,而不是“一锤子买卖”。在A/B测试中,同时应用了许多其他合适可行的方法,是它们的共同作用帮助我们判断出了最优的试验版本。下一篇,我们就来讲讲A/B测试中用户最关注的部分——置信区间。

 

吆喝科技:国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 测试服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。

用数据帮助用户优化产品,提升转化、留存和你想要的一切。 AppAdhoc 用数据验证最佳方案,提高产品设计、研发、运营和营销效率,降低产品决策风险。

 

6653 Views

A/B测试最佳实践

点此订阅
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。