如何更加有效的分析A/B测试结果?

A/B测试的结果出来是不确定的,转化小组非常失望,他们本来认为这次改变可以提高营收,然而他们并不知道像营收这样的高阶指标依赖的是什么。

 

在一次试验完成之后,我们要分析是否还有更多我们可以从试验中学习的东西。这个过程叫试验后分析。

 

通过分离试验版本A的网站流量,我们可以清晰的看到某一个浏览器表现明显劣于其他:IE

ab测试

来自IE的用户转化比其他浏览器平均转化低50%以上,同时产生1/3的每次交互收入(per session value)。但原始组的表现却不是如此。试验版本A出现了问题,测试代码里出现了错误。

 

分析显示,在修正了这个错误之后,转化率提升了13%,每次交互收入提升了19%。在修正之后试验版本A显著的胜出了。

 

这个案例体现了试验后分析的好处,它让我们拨开迷雾,防止由此导致的错误决策。下面我们来看一些转化率专家如何通过试验后分析进行正确决策。

 

我们的每个试验版本都是获胜版本吗?

 

第一个问题是:“我们每个试验版本都是获胜版本吗?”

 

当我们检查A/B测试的结果,有两种可能的情况:

试验结果是不确定的。没有试验版本优于原始版本

1个或多个试验版本统计显著的优于原始版本
转化率专家 Joel Harvey 描述了他的试验后分析过程:

 

“试验后分析”这个词其实不准确。大量的分析发生在试验准备阶段以及贯穿于整个A/B测试流程。来自一次试验的“试验后”洞察是下一次试验的“试验前”分析。因此为了让下一次试验得到好的结果,最好的方法是在上一次试验设定合适的指标。

 

因此,当你在查看某次A/B测试试验结果时,首先你要判断这次测试是否有优胜版本,劣势版本或者无法确定。要确保优胜版本的确是优胜的,主要观察几个核心指标:统计显著性,p-value,测试时长,样本容量等。如果检查过没有问题,下一步就是将该版本展示给全量用户,观测转化率的提升。

 

在我们确定优胜版本之后,将版本细分统计查看十分重要,细分包括但不局限于:

移动端 vs 非移动端

付费用户 vs 未付费用户

不同浏览器和设备

不同流量渠道

新用户 vs 老用户

 

运用一些分析工具,上面的细分统计是很容易做到的。对于细分之后的用户表现分析是至关重要的:跳出率如何?退出率如何?我们是否彻底改变了某类细分用户在漏斗中的通过流程?
Chris McCormick,PRWD 的优化负责人,描述了他的试验后分析过程:

 

当一次试验完成后,我们会进一步通过 GA 来分析结果。

 

对于任意一次试验,我们在开始的时候总是会设定“主要成功指标”。这些指标是我们想通过 GA 确认的并且通过作为跟客户交流的优先内容。当我们在整体层面了解了本次试验的表现后,便开始更多面的挖掘是否有某种倾向性或模式表现出来,比如:不同产品组合,新用户对老用户, PC 对 mobile ,等等。

 

在每次试验时,我们总是会尝试做一个粗略的 ROI 出来。大多数时候,我会通过分析前12个月的数据,再根据本次试验的提升得到这个 ROI 。对于用户来说就是一个大致估计:比如大约50k欧元的 ROI 。之所以是大致估计是因为对于一个试验来说,有太多的因素影响,我们不可能做到100%精确。试验不应该被当成一门精确的科学。

我们是否在犯第一类错误或第二类错误?

 

为了避免做决策时候犯错,我们应该更细致的分析试验结果。

 

通过确保样本数量足够,使用合适的A/B测试框架,我们可以尽量避免错误。Peep Laja 描述了他的判断:

 

首先我会检查是否有足够的样本,足够的样本可以确保试验结果无误。然后我会去检查A/B测试工具汇报的试验结果是否跟分析工具吻合:转化率,人均营收等。

 

运用分析工具,我尝试去理解为什么试验版本改变了用户行为:通过观察微转化(购物车添加,某些页面的访问等)和其他的指标,比如购物车价值,每次购买数量等。

 

如果样本数量足够大,我会去看试验结果在不同受众的表现,是否试验版本还是优于原始版本。当然受众的确定因人而异,我关注的受众有:新用户/老用户,流量来源,首次购买/反复购买。

关键受众表现如何?

在试验结果不确定时,我们需要看细分人群的表现。

 

举个例子,我们的某次试验结果是: Android 的用户喜欢试验版本,但 iOS 的用户更喜欢原始版本。二者互相抵消导致试验结果不确定。这种情况下,如果我们不进一步观察就会错过重要的信息。

 

受众的细分可能包括以下方面:

多次访问用户 vs 新访问用户

Chrome 浏览器 vs Safari vs IE

自然流量 vs 付费流量 vs 推荐流量

Email 流量 vs 社交媒体流量

主要产品购买 vs 非主要产品购买

主页访问 vs 内部访问

 

对于不同的行业,这些细分是不同的。这些细分为产生新的试验想法,甚至个性化体验提供了机会。了解不同受众的表现对于做好试验分析至关重要。但是要有主次之分,关于这点,Rich Page 是这么解释的:

 

要避免分析麻痹,即避免划分过多的受众或使用过多的分析工具。你可能会经常遇到矛盾的结果,但切记,相对于其他指标来说,营收总是最好的指标,否则再好的试验结果也没有意义。

 

不确定结果的试验时有发生,我们不能遇到这种情况就不管不顾。这种情况是一个非常好的机会去学习和建立下一次试验。比如,向用户展示原始版本页面和试验版本页面,收集他们为什么喜欢那个版本的意见。观察用户热图同样能够给你带来好的洞察。
来自 WiderFunnel 的 Nick So 谈论了他关于用户分割及A/B测试分析的看法:

 

除了一般的点通率、漏斗退出、转化率,其他的指标设定依赖于网站用户的特定业务环境。

 

对于做了很多邮件营销并且有很高用户复购的电子商务网站,我会关注流量区分:新用户和老用户。关注于某个用户分类的特征表现,你能够得到极大的提升。

 

有时处于个人喜好,我会关注那些看起来随机的指标,看能不能发现什么意想不到的特征。但要注意不要过于深陷不停的区分用户行为当中。

 

对于 B2B 的企业,你当然需要关注全用户生命周期和周期价值,这样才能决定哪个版本更好。在我的经验里,有很多次我都看到一个试验版本提高了用户注册量,但用户转化却非常的低,这会极大的增加销售成本。
Benjamin Cozon 描述了如何从用户体验入手,得到额外的洞察力:

 

我们必须明白测试的结束其实是更深层次分析的开始。

 

为什么这个版本得到了这样的转化率?为了回答这个问题,我们往往尝试去发现哪类用户类别对版本的变化最敏感。

 

我们得到这个答案的一个途径是观察数据的某些维度,这些维度可能是:

用户种类

新用户/老用户

获客渠道

着陆页种类

 

这种方法让我们了解到,经历不同流程的用户对于试验版本的反响。这些额外的洞察帮助我们建立了非常健壮的知识库,并且促进了我们在组织间的沟通。

试验版本对于线索质量有何影响?

营收是判断线索质量的最主要的指标,但只看营收总是存在一些问题,Ben Jesson 是这么描述的:

 

如果一个试验没有达到显著性,我们会马上关注下一个想法的测试。对于小众受众长久测试,并不会带来很大的收益,反而会增加复杂性。

 

对于优胜版本,如果能够做页面调查,那是无价的财富。这些调查能帮助你认清未来提升的机会。

 

线索质量很重要,我们从两个方面解决线索质量问题。一方面,定性分析:试验版本是否能从某个层面降低或提升线索质量?另一方面,定量分析:我们如何从数据角度判断线索质量?

 

你也许觉得衡量收入比衡量订单数更好。然而,从统计学角度来看,其实不然。一些随机的大的订单会极大的改变收入图标。一些人建议手工提出异常点,但如何定义异常点?为什么我们不关注他们?这些都是问题。如果试验版本并没有做影响订单量的改变,那么你就可以仅设置转化率为你的指标。

 

在一次成功的试验后,在数据库里记录下结果,按照以下分类:行业,浏览器种类,地理位置和转化目标。这样做对于项目组的价值是无尽的。

 

根据时间和地理位置分析A/B测试结果

 

转化质量是重要的,Theresa Baiocco 更进一步说明了这个问题:

 

对于主要目标是电话转化的生产线索公司,仅仅优化电话数量是不够的,必须要同时追踪和提升电话质量。如果你通过付费广告来获得这些电话,你需要考虑如何精打细算的获得高质量的电话,可以从以下受众分析:

每天广告展示小时数

每周广告展示天数

广告位置

地理位置等等

 

当测试电话时,你必须将电话软件追踪的数据与广告获得数据进行比较。比如,你想知道一周中的哪一天你获得5星质量电话的成本最低,首先你从电话追踪软件里获取关于5星质量电话的按天数据:

ab测试技巧

然后,检查从广告端获得的数据,如 Google AdWords 获取相同时间段内广告成本的数据。

灰度发布

最后,只需将成本除以电话数就可以得到一周的中的每一天,获得5星电话的成本分别是多少。

ab测试工具

对于其他细分分析,比如:每天广告展示小时数,广告位置,每个月广告展示周数,地理位置等等,都可以运用类似的方法。通过这样的额外分析,你可以将你的广告预算精准定位到每一天,每一个时间段,每一个地点,通过更少的投入达到更高的通话质量。

关注意想不到的结果

结果不是凭空得出的。任何一次改变对网站都会产生一定的连锁反应,我们很容易忽视这种效果。

 

Craig Andrews 说明了他对于这种现象的看法:

 

在跟客户的交流中,我发现了一些异常现象,我也差点错过因为它只是活动的一个次级效果。只关注转化率的一个缺陷就是,无法衡量其他相关效应。

 

比如,我确信弹框可以提升转化,但是成本如何?对于未来用户对品牌的认知有什么影响?大多数人都希望建立品牌信任感。

 

我们帮客户发布了一个可下载内容,在这个过程中,我们最大的挑战就是说服用户使用更简洁的词汇、语句。用户担心改变他们以往的风格会造成用户的信任感流失。这个新内容最终大获成功,它比其他版本提升了28%的下载量。

 

但随后,我发现了一些其他现象。

 

下载量排名第2和第3的内容的转化率竟然也提升了很多,我们没有对他们做任何改变,只是改变了第一个版本的效果。

 

新设计的内容提升了在用户心中的品牌价值,从而连锁反应的提升了其他内容的转化。
测试结果同样可以拿来跟历史试验结果比较, Shanelle Mullin 说明了这个情形:

 

存档你已有的试验结果有两个好处。第一,你有一个清晰的试验表现记录,这对于和客户以及相关人员交流至关重要。第二,你可以用历史获得的经验发现更好的测试想法。

 

对于相关人员和用户,如果你能更清晰的表明试验项目的 ROI ,那么你就可能获得更多的预算和信任。

 

重要的是你存档什么信息。存档的试验信息应该包括:试验日期,试验受众 URL,试验截图,试验假设,试验结果,影响因素分析,试验链接,试验结果链接以及试验洞察。

 

为什么我们获得了这样的结果?

最后,我们需要回答这样一个问题,为什么这个版本胜出了?它告诉了我们哪些关于用户的信息?

 

回答这两个问题需要群策群力以及多加思考。这个过程有两个结果:

# 能够产生新试验的假设

# 让我们根据新的信息重新排列试验优先级

 

我们的目标是从试验中学习,多问为什么正是加强这个过程的最好方法。

 

本文由 Luke @ 吆喝科技编译自:http://conversionsciences.com/blog/ab-test-analysis/

 

吆喝科技:国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 测试服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。

 

用数据帮助用户优化产品,提升转化、留存和你想要的一切。 AppAdhoc 用数据验证最佳方案,提高产品设计、研发、运营和营销效率,降低产品决策风险。

9507 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。