统计学专家眼中A/B测试的4种常见雷区

ab测试

P-value 是犯第一类错误的概率

P-value 是根据统计数据计算得来的,多次试验的话会得到不同的 P-value ,究竟哪个值才是犯第一类错误的概率呢?所以, P-value 和犯第一类错误的概率无关。犯第一类错误的概率应该只和实验系统有关,是在开始试验之前就知道的,显著性检验标准 α 才是犯第一类错误的概率。显著性检验标准 α 是试验者设置的,作为试验者可以有效的控制犯第一类错误的概率,是不是更加合理呢?

95%置信区间为[x,y]意味着被估计参数有95%可能属于区间[x,y],且在区间中间的概率更高一些

传统的假设检验基于频率学派。对于频率学派来说被估计的参数没有不确定性,它就是一个固定的值。有不确定性的是抽样,是试验数据,所以95%置信区间真实的意思是做100次试验,得到100个区间,其中有95个区间能包含被估计参数的值,[x,y]只是众多区间中的一个而已,下次试验得出的置信区间就不是它了。

脱离具体情况只关注 P-value 绝对数值的大小

P-value 是当原假设为真时,得到比目前更加极端试验数据的概率。P-value 无法描述原假设成立的概率,因为对于频率学派来说原假设是否成立是不存在不确定性的。频率学派在进行试验前对所有的原假设一视同仁,先验知识无用武之地。实际情况下,我们对不同原假设的信心显然是不同的。所以同样是 P-value 为0.01,如果试验用来证实增大网页上的一个按钮能提高点击率,产品经理会欣然接受,如果试验想推翻动量守恒定律,根本不会有人正眼看一下这个结果。

试验过程中随意调节不同版本的试验流量比例

一般进行A/B测试时,会先做小流量试验,之后逐渐增大。这是业界常规的做法。需要注意的是,在均值数据仅根据 UV 平均没有进行天数平均的情况下,新进入的流量会拉低均值数据。这很好理解,新进入试验用户贡献的点击量必然不如已经进入试验若干天的用户。如果各试验版本的流量是同步放大的,这种新用户效应对不同试验版本统计数据的影响是相同的。如果流量放大不同步,比如一个试验版本5%-10%,另一个试验版本5%-20%,后一个版本的均值数据会受到更大的拖累。对于转化率指标,情况会好不少,因为一个用户最多贡献一个转化,最先进入试验的用户对指标的贡献不会比新用户更大。

反复进行A/A测试,A/A测试观测多个指标

在A/B测试之前进行A/A测试,避免工具有 bug ,这也是业界常规的做法。预期的结果当然是统计不显著。然而,犯第一类错误的概率总是存在的,无论多么小。在一次试验中,小概率事件几乎不会发生;不停试验,小概率事件几乎一定会遇到。A/A测试中偶然出现的统计显著结果并不能断定测试工具存在 bug ,可能仅是概率使然。

干涉试验流量的分配

A/B测试是通过给相同的用户群体看不同的版本,来进行比较,最大程度的保证结果的科学性和准确性。这是由随机分配流量来保证的,而试验者人为的进行流量分配,给不同来源的用户看不同的版本,则比较结果可能会不准确。如果最终目的就是想让2个来源的用户看到不同的版本。则建立2个定向试验,分别进行验证,如果确实胜出的版本不同,结束试验后,由前端程序把这种个性化方案固定下来。A/B测试的目的是测试,测试总有结束的一天,测试结束后去掉测试代码,把胜出方案固定下来,通过A/B测试平台来实现产品功能是不合适的。

 

吆喝科技:国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 测试服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。

 

用数据帮助用户优化产品,提升转化、留存和你想要的一切。 AppAdhoc 用数据验证最佳方案,提高产品设计、研发、运营和营销效率,降低产品决策风险。

7692 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。