全球视野下的A/B测试增长实践(一)— Agile UX消费管道入口A/B Testing实战分享

试验驱动创新、数据驱动增长,越来越成为一种全球性共识。当大家热烈追捧黑客增长理论时,是否也能反思究竟该如何将试验与数据相统一呢?试验驱动与数据驱动究竟存在怎样理论与实践的逻辑关系呢?吆喝科技精心为大家整理了一整套A/B测试增长实践案例集,共十篇,相信能够让大家对A/B测试、试验驱动、黑客增长等理论有更加深刻的认知。

这篇文章著眼于A/B Testing的实战经验分享,分为两大部分:

  • Agile UX与A/B Testing实验须知
  • 实战分享(文章最后有附slideshare上的连结)

1.Agile UX与A/B Testing的背景知

Agile UX

在进行使用者体验UX(User Experience)研究的过程中,加入Agile的概念,如下图所示,我们需要加速产品设计前期的准备,在不影响使用者体验的前提之下,可以把UX的过程分割成「设计」、「建造」、「上线」、「调整」,「再进行测试」。值得注意的是,实验的过程将会是一个迭代循环的过程。

ux

UX与Dev的合作流程分配

在下面这个例子,UX的sprint会比Dev(程式开发)再提前一个衝刺的时间,并在UX sprint1做完后,马上给Dev进行开发,开发完成上线之后,蒐集相关的资料,再把这些资料回馈给UX sprint 2,持续反覆不断地演进。

yanjin

进行A/B Testing资源耗费吃重

先前看过很多Google或是Airbnb在网站设计A/B Testing的分享内容,常见的问题是,即使自认为拥有完整的A/B Testing知识,但自身的公司也不一定有足够的资源去确实执行一套完整的验证。个人认为主要的原因是A/B Testing的本身,不只牵涉到设计师要做出不同版本的网页设计,开发端RD也要同时製作多个版本(这边已经牵涉到PM能否安排好足够的资源让RD开发,以及QA testing的部分)。除此之外,还需要有人先定义好要追踪哪些数据,进而请RD埋追踪码,去追纵测试的结果。
在前面的步骤中,商业目标设定、网站设计、程式开发、部署上线完成后,还需要资料科学家蒐集所有数据,去分析数据背后的意涵,彙整好这些洞见呈现给老板,再决定下一步要如何进行。以上述的分工而言,需要一名UI/UX设计师、一名RD、一名QA、一名PM、一名资料科学家,一名老板,少说也要6个人才能把一次的A/B Testing做完。听起来是否有些气馁?
没关系,还是先看下去,至少在这裡的分享中,看到我们踩过的坑,大家能少走一些冤枉路。

Designing with Data 提供了Data Driven开发的方向

在Designing with Data 这本书中提到了以下几点,或许可以当作大家在执行A/B Testing时,有个可以依循的原则
a.了解数据、商业以及设计之间的关系
b.找到可以做基底的资料,以及进行A/B Testing的运作方式
c.使用实验的框架来帮助我们收敛实验结果
d.建立可以与绩效指标连结的假设
e.解释测验的结果并决定下一步要做什麽

a. 了解数据、商业以及设计之间的关系

以终为始,在开始进行A/B Testing之前,最重要的是了解自己想要达成什麽目标?这并不容易,一个可行的做法是先把自己当作一位用户,然后从目前公司既有的接触管道进入自家的产品,透过使用者行为漏斗,进一步去了解产品到商业间是怎麽连结的?
举个例子,像我在这次的演讲中提到,希平方有一部分的潜在用户是透过使用者学习的心得接触到我们的产品,在心得文中,潜在用户看到分享心得的学员学习英文的困扰,而攻其不背产品能帮这些学员解决什麽问题?进而产生同理心,想要前往了解课程方案的念头。在这样的使用者行为漏斗中,我们可以去了解该如何规划这个网页(文案的编排形式、Call To Action(CTA)的安排、延伸阅读的安排),设定我们的商业目标(点击了解课程方案、到体验专区了解课程进行方式),以及预期在过程中需要什麽样的数据来进行验证。
在另外一场郑雅中老师佛系设计的演讲中有提到,公司的业务明明是做旅游资讯网站,却因为老板与公司外部的朋友聊天之后,觉得线上订餐应该也很重要,就要求设计师把订餐的功能加入到网站内,结果让所有员工都一头雾水。结论是,即使是老板,也不一定每次做决定时,皆可前往对的方向,因此,员工需适时提出建议,有助老板导回正轨。
了解如何在数据、商业及设计之间取得良好的关系,将会是开始著手进行A/B Testing前一个很重要的准备。

b. 找到可以做基底的资料,以及需要进行A/B Testing的元件

在还没做A/B Testing前,为何旧版本的网页要这样设计?背后是否有任何学理的依据?或是个人直觉的经验?
直白地说,任何一个新创公司,产品刚上线时,除非有位富爸爸,否则很难有机会执行完整的使用者研究、用户访谈、脉络分析、到真正上线、进行A/B Testing。大部分的新创公司,起初都是创办人想要解决一个与自身相关的问题,接著去设计一个「自己」认为可以解决使用者问题的服务。这样的方式,如果前提是「这个问题是实际的问题」,那麽解决方案本身是否能打到使用者的痛点,才是最重要的。等到公司的业务稳定了,开始有资源进行下一步的产品开发,才有可能进行完整的使用者研究(A/B Testing)。
因此,在开始进行A/B Testing前,首要先去了解原先设计时的想法。每家公司业务的不同,设计产品的考量也会不同,找到基底的资料,充分的了解之后,再进行A/B Testing的设计,通常可以减少很多阻力。

c. 使用实验的框架来帮助我们收敛实验结果

c

From Designing with Data ,O’REILLY pp.212 Fig. 6–2
实验的框架,可以让我们在进行A/B Testing的过程中,了解自己所处的位置。如上图,一开始先决定在这次实验中最小可侦测出来的结果是什麽?接著便可以开始规划实验测试的内容。
在实验的过程中要去决定测试样本的大小,及想要多少的信心水平(信心水平越高,所需测试的样本数就会更大,这部分牵涉到公司愿意花费多少资源,去取得测试的样本。)
决定样本数大小后,再区分上线之后有多少比例的使用者会用到测试版的网站,如果像FB或是Airbnb这样大的网站,可能刚开始3~5%的使用者就已足够。在台湾的话,可能需提高到10%~20%,才能达到足够的样本数。除了多少比例的使用者可以用到测试版的网站之外,还有「时间」这个参数可以利用,需要测试多长的时间?也会决定这个测试品质的好坏。值得注意的是,测试期间不能有其他的变数(例如:一个版本是在促销案期间,另外一个版本是在非促销期,因为促销本身就是一个变数,即使其他参数都保持一致,这样测试的结果还是不足以信赖。)最后则是需要进行多少次的测试,才能验证一个想法。

d. 建立可以与绩效指标(Metrics)连结的假设

常见的绩效指标可以分成三种
Key metric : 主要的商业指标
Proxy metric : 替代指标
Secondary metric : 除了主要指标之外,我们也可以藉由一些次要指标去评估改变的过程是否影响到使用者的行为。
找到关键指标(Key metric),并且把这个指标与最后的商业目的做连结是最重要的。比如说:游戏业会很重视留存率,那7天之内的「留存率」就是关键指标。若是线上课程,那可能「完课率」就是一个值得关注的点。若是电子商务,则「回购率」绝对是老板注意的点。
但有时候关键指标并不能在几天之内就显现出结果,比如线上课程Coursera的关键指标,原本是学员购买证书和完成课程的比例,但上述这两个指标,都是要等学员快上完课才会发生的结果。线上课程的学习时间,短则1个月,长则要3~4个月才可能上完,要一个新创公司等3~4个月才看得到测试结果,可行性实在不高。因此,Coursera把指标进一步拆成:学员课程单元的完成率、小考成绩以及对课程问答的参与度,作为预测的关键指标,这些指标可视为替代指标(Proxy metric)。
在实验结束之后,我们需要观察的是,到底实验最初所建立的假设,能否在数据中得到印证?比如说,这次演讲中提到的心得文实验,我们一开始假设在同样的CTA按钮下,上色的文章内容型式会比简洁有组织的内容型式,让人更想要去点击。但我们能否在实验的数据中找到对这个假设支持的数据?在上面这个例子之之中,CTA的conversion rate就会是主要指标,而改变文章的内容型式,是否会影响使用者阅读的行为?(例如是否有滚动阅读的行为,阅读文章到30%、60%、90%的长度),则都可算是次要指标。

e. 解释测验的结果并决定下一步要做什麽?

测验的结果有可能会不如我们原先所预期,但看到结果之后,可以先想想实验最重要的关键指标是什麽?如果该指标仍可在实验的结果找到答案,就不用太灰心!
通常实验的过程,不会是一次就搞定。像我这次演讲过程中举的例子,次要指标在不同阶段的实验中,数据结果有小幅度的变动,但我们知道该阶段的实验重点不在次要指标的变化,所以我们就忽略部分不符合预期的结果,专注在关键指标,继续进行下一次的实验。

2.实战分享

在进入这次的A/B Testing实战分享之前,我稍微介绍一下这个实战的背景。我目前在希平方科技服务,我们主要的产品攻其不背是一套线上英语学习的系统。攻其不背最大的特色就是主打「学英文不用背」。原因是我们把学英文过程中,最难的「複习」做到APP之中,透过多次的複习,学英文不用在靠自己死记硬背。
消费者与我们接触的其中一个管道,是当他在FB上面可以看到我们创办人分享的学英文心得,点击这篇心得文,进到我们的网站,看到更多学英文的秘诀。稍微整理一下这个消费管道的入口漏斗图,将如下图所示。我们主要的商业目标,是希望提升使用者从心得页面(Sharing Articles)点击进到课程方案页面(Course Price Page)的转换率。

shizhanfenxiang

消费管道入口漏斗图

因此,使用者心得页面设计的好坏(包括网页设计、文案设计),将会决定该页的转换率。使用者心得页面会长的像下面这篇文章:

https://www.hopenglish.com/thatsummer

希平方创办人当年的自学英文方法推荐经验分享,把自己的英文学习方法运用在现在希平方的英文学习网站中,让您不用花费冤枉的钱买到不合适的英文教材,并让希平方为您量身打造英文专属课程,不仅高效且绝对是经得起考验,因为适合您,所以成效超好!

为了提升这个页面的转换率,我们想到两个问题:
文案的设计样式(上色、型式)是否会影响潜在用户的阅读行为?
潜在用户是否会因为CTA按钮的设计及颜色的不同,而产生点击的行为?
接著我们做了不同的假设,

针对文案的形式
根据旧版的文章投放广告的经验,上色文案的设计样式更加亲民,容易吸引潜在用户点击。

针对CTA的按钮颜色,我们假设
潜在用户会因为红色的按钮,提升点击的动力,增加页面之间的转换率。
有了这两个假设,我们就要想办法设计实验去印证这两个假设是否正确。

实验目标

相较于一般大公司针对小部分的设计样式进行A/B Testing,个人认为这次分享的实战经验,其实是一种多参数的测试(Multivariate testing)。多数新创公司,或是大公司裡面的新创团队都会有资源不足的问题,没有那麽多的资源去拆分实验,一个一个设计,并且规划好开发的流程,进而得到最后想要知道的答案。
实际上,我们希望在越短的时间之内,得到越多有效的实验成果,并且得出有用的insight,进而提供老板建议,让我们可以进行下一阶段的开发。演讲至此,我引用「发明大王」爱迪生的名言:
真正衡量成功的标准是,你能在24小时内塞进多少次的实验

aidisheng

http://www.azquotes.com/quote/530630
整个实验的过程,分成三个阶段,每一阶段结束之后,我们进行回顾讨论,透过分析师将实验的数据整理,得到insight,接著进行下一阶段的动作。

实验对象及项目

第一阶段实验开跑
实验对象及条件限制:
测试时间:一天
目标对象:1~65岁 FB使用者 男女都有
实验种类:
我们可以用下面这张图,比较不同Layout下,使用者行为的差异,
进而判别哪一个版面较受使用者喜爱。
A:原始文案型式设计,绿色CTA按钮
B:原始文案型式设计,红色CTA按钮
C:新版文案型式设计,红色CTA按钮

abc

测试项目Layout图示
接著我们要尝试思考哪些参数可以真正代表使用者的行为,并将那些行为描述出来,例如:
阅读浏览的行为:包括没有滑动过就离开、或者滑过一次后离开、滑动过程中在整个网页长度的多少比例(30%、60%、90%)
延伸阅读的点击行为
前往了解课程方案(CTA)
第一阶段结果揭晓
在第一阶段实验过后,我们该如何进行下一步?透过下图可以解释:在Experiment 1之中,若已经验证出结果的假设:Hypothesis 1中的Test Cell A~D及Hypothesis 2中的Test Cell A,对实验结果没有影响。若要进行Experiment 2,上述Test Cell都不需要进行测试了。

diyijieduanjieguo
回到演讲中的例子,我们假设:
潜在用户会因为红色的按钮,提升点击的动力,增加页面之间的转换率。
实际的结果,我们发现,不管是B版本或是C版本,最后的CTA表现都来得比A版本来得好,因此我们可以不用再考虑A版本绿色按钮的CTA,而只要专注在这次的实验之中,无法验证假设的部分。

Designing with Data:实验的过程,已经得到验证的假设,在下次的实验之中,就可以不必再重複进行
然而,第一阶段(Round 1)实验的结果也不是那麽顺利,尤其是在我们关注的CTA按钮之转换率上,看到如下图所示矛盾的现象:针对「前往购买页」的转换率,同样的CTA按钮型式设计,PC版的版本C>版本B,Mobile版的版本F>版本G。我们预期在文案设计的形式上,如果原版设计(有上色)比较好的话,那应该PC版和手机版的转换率要一致才对。这是第一个引发我们想进行下次实验的因素。另外,在「阅读浏览行为」的P-value这个部分,我们计算出0.0571的数值,这个数值不到学理上0.05的水平。P-Value是用来衡量实验假说的显著性,我们预设想要达到0.01的P-Value,这个目标在第一阶段是没有做到,因此需要进行样本数更多的实验,来验证这件事。有鉴于前述两点,我们建议上级,进行下阶段的实验。

diyijieduangaoyiduanluo

前往购买页转换率,因转换率涉及商业机密,这边已A%当作基本单位进行表示
第一阶段的实验到此告一个段落,但是要进行第二阶段的实验之前,我又再次请发明大王爱迪生跟我们说句话:
人们最大的弱点在于放弃,最能够成功的方式,就是再试一次

aidishengyoushuole

第二阶段实验开跑
实验对象及条件限制:
测试时间:1个月
目标对象:1~65岁 FB使用者 男女都有
第二阶段实验结果:
为了验证第一阶段(Round 1)实验结果,我们增加测验时间,增加样本数,让P-Value达到0.01的信心水平。在这个阶段,得到实验结果之后,我们又发现一个新的问题,如下图,「滑动90%」这个参数在第二阶段(Round 2)的实验之中,PC版本变差了14%~17%,Mobile版本表现也变差3%~5%,这又造成我们的困扰,到底是否要针对这个部分进行下一次的实验?

dierjieduan

第一阶段与第二阶段阅读浏览行为关注参数:『滑动90%』

回到我一开始说的,在实验的过程中,我们需要把焦点聚焦在关键指标(Key metric)。所以观察下图的「前往购买页」转换率,发现当样本数增加,可以解决第一阶段实验中遇到的PC版本和Mobile版本间转换率不一致的现象(第二阶段不管是PC版本或是Mobile版本的转换率都是相近的)。由此判断,既然主要商业指标的改善已经满足这次实验的目标,因次认定已经完成这个阶段的任务。

主要商业指标「前往购买页」转换率,这边以A%当作基础转换率进行表示
第二阶段实验结束,我们讨论之后作出决定,将「B:原始文案型式设计,红色CTA按钮」的网页正式上线。这部分是商业上的考量,原因是如果要进行整个网站的文案型式设计变更成「C:新版文案型式设计,红色CTA按钮」,可能还要多花1~2个月的时间,修改上百篇学习心得的文案型式。透过前两次的实验结果,我们已经知道CTA按钮的转换率已经改善,于是决定把这个版本上线,直接进行验证。

cta

上线后的文章版本CTA改善率

相对于原始的版本,观察新版本上线后,一个月的期间转换率分别成长了18%以及73%(每篇文章的转换率,有可能会因为出现的时间越长开始出现迟缓的现象,不过至少在上线后一个月内,表现是比原始版本来得好。)
结束了前两阶段的实验,我这次没有再用发明大王爱迪生的名言,而是在电流大战中展露头角的特斯拉,他对于爱迪生的实验行为有下面的建议
Just a little theory and calculation would have saved him ninety percent of his labor
如果爱迪生有一些学理的依据或是能够做一些计算,那麽可以节省他90%的工作时间

tesila

成果Takeaway

演讲到了尾声,藉由特斯拉的名言,我希望这次的实验,能给听众一些立即带走的Takeaway:
当团队比较小,资源有限,列出重要的点进行测试。
依照每次的测试结果,进行筛选或调整,下次测试只针对前一次实验结果未解答的地方。
专注在关键指标的改善,次要指标可以放在未来有资源的时候,再去进行验证。

 

AB测试 黑客增长 二维码

835 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。