A/B测试,凭什么相信你?
一轮A/B测试需要运行多长时间?多个版本一起测试时流量如何分配?怎么确定测试结果变化不是由于偶然因素影响的?A/B测试对需要精细化运营的产品或品牌来讲是非常必要且重要的,为了获得更好的转化,优化师们收集投放数据,并拿改进前后的数据进行比较,以便能选出效果更好的素材,而要想得到准确的结果,最重要的就是要确定样本量。
两个广告,你会点那个?(点此用AI快速作出好Logo和好海报)
一 、样本量如何影响实验结果
1.若样本数量较少,例如下图的情况:

A比B的点击率高出4%,那是不是可以得出结论:A素材比B素材更吸引人呢?不可以,因为样本量太小,B只需要增加3个点击量就会在数据上超过A,偶然的数据波动就将影响到测试结果。
2.若样本数量较多,测试成本相应变高,如果测试样本效果很差,为测试付出的流量越多,损失越多,且在实际工作中,流量是有限的,往往多项测试同时进行,大量流量被分到某一测试就意味着其他测试流量减少,影响工作进度。
二、计算样本量的科学方法
现在,要确定准确的样本数量,可以使用热云数据A/B测试实验平台新增的样本量计算器功能,快速平衡流量与运行时长之间的关系。仅需要输入几个关键参数,根据试验所需样本数与流量分配比例和运行天数即刻呈现。
样本量计算器中的关键参数:
基础转化率:原始版本中的关键指标转化率
最小重要变化:关键指标能被检测到变化的转化率最小相对变化
显著性检验标准α :原假设为真时拒绝原假设的概率,由[1-统计结果可信程度]得到
版本数量(自动匹配):所有试验版本之和
统计功效(Power):可检测出版本之间存在差异的概率
通过输入上述参数,来估算出单个版本所需要的样本量。

在确定单个版本所需要的样本量后,根据试验所配置的版本数量自动计算所需样本总量。通过【日活】【周活】【月活】三个流量统计方式,系统会调整总的流量分配比例来调整具体的运行天数。

对于”日活百万”的情况,A/B测试会在极短的时间内就可以得出结论:

在实际的测试中,不同时段具有流量差异,该试验仅体现了试验当天运行期间的数据,而不能代表每天的数据表现。为了保证试验结果的科学性,需要根据实际试验场景,来决定是否需要考虑时段差异:
二十四小时内不同时段之间的流量表现差异
一周内每天的流量表现差异
因此,A/B测试推荐至少运行一周,方可得出科学的试验结果。当然,对于某些特定时段进行的AB测试的场景,例如,外卖平台的测试场景,流量集中体现在中午(10:00~12:00)或晚间(18:00~20:00),也可以通过使用AB测试的定时统计功能来实现。
随着流量红利的逐渐消失,精细化运营成为趋势,大数据背景下,算法驱动流量的分配更精准、科学,A/B测试的广泛使用使流量的流动变得可预测,事先验证广告效果,进一步降低获客成本。