王晔带你解密 Google 产品优化的秘密 「下」

secret

王晔博士:吆喝科技创始人及 CEO ,清华大学电子工程系硕士,耶鲁大学计算机科学博士,曾在 Google 美国总部负责广告产品的创新和研发,对A/B测试系统、大规模复杂系统、数据挖掘和分析、互联网基础架构有深入研究。
本文接之前发布的:王晔带你解密 Google 产品优化的秘密 「上」

本文接之前发布的:王晔带你解密 Google 产品优化的秘密 「上」

二、优化的利器:AB测试

1、你的测试真的是AB测试么?

上面所说的所有都是为了引出A/B测试这个概念,A/B测试就是 Always be testing 。它的概念就是一个科学的测试。它能够帮助我们去合理的采样用户流量,带有一部分随机性,帮助我们去实现实验流量的采样,同时支持很多的变量参与实验,我们可能在 UI 层面要做实验,我们可能在促销或者活动上要尝试,我们到底上不上一个大转盘。我们当然也会在后端的派对算法和推荐算法上做尝试,他们都可能影响我们的效果,这些变量的影响会怎么样,需要一个科学的方法去追踪,我们要知道到底哪个变化产生了什么样的影响,可以帮助我们产品经理在管理产品的时候可以很容易的去选择到底哪个版本你想交给你的用户去体验,然后当然还有实验时间的问题,就是说这个实验跑多久才可以做出决策,这其实也是A/B测试需要解决的问题。就是如果我们不做A/B测试,我们直接上线了,然后过了两天,我们觉得这个效果,数据不错,就真的数据不错么,真不一定,这后面会说。当然也有收敛区间置信区间等等问题,这都是A/B测试要解决的。

2、优化方式 generic tadalafil online

其实A/B测试的方法论大家在前面已经知道,有一些概念,但是更重要的是把它集成到我们产品研发,测试,上线,运营的各个环节中去,这个才是在 Google 的秘诀所在。假如你有了A/B测试这个工具,集成了 SDK 或者怎么样,你总是在设计一些新的迭代方案,就是我刚才说的 UI 能不能变一变,按钮的位置能不能变一变,文案能不能变一变,上不上一个促销等等,这些方案都可以灰度的上线,就是并不是所有用户都体验的,然后你去设定实验流量,比如方案 A 让1%的用户去体验一下,方案 B 让2%的用户去体验一下,然后这些放进实验组这些用户他们的数据会被实施长期的采集下来,然后根据这个实验数据我们会知道,有些方案特别的棒。比如说我们改了一个文案,使得用户下单率提高了,那么我们就可以把它发布,让更多的人体验这个文案。如果它不好,那我们就要打回去重做,我们就要去思考为什么这个数据和我们想象的不一样呢,为什么他们没有提高呢,为什么没有增长,那么我们该怎么从中吸取经验教训,然后让它不断的去新的迭代。

3、A/B测试与统计分析的差异

接下来我要说一些理论性的东西,就是A/B测试集成到我们系统里面,是正确的方法,为什么正确呢,它与我们做统计分析,它与我们做后验的数据分析,有什么区别呢。

先验性,如果我们每次改版每次迭代的是都没有经过AB测试就直接上线了,那会发生什么事情呢,那么可能一个不太成功的改版不太成功的策略被上线之后就直接带来了损失,比如说降低了20%的用户下单量,那么如果真的发生了这样的事情的话,我们后验的话就产生了不可弥补的损失,但如果我们做A/B测试我们可以怎么样呢,我只采样一部分的用户,比如1%的用户来做这个实验,举例来说,我们遇到过一个旅游类的产品,它在他的注册环节做了一个小小的改版,这个改版也经过一些测试,但是他没有想到的是对失眠上的某些安卓手机 会有一些不过注册流程上会有问题,那么他每天会花10玩块钱去采购流量,会吸引一万个用户来注册,结果因为这个 bug 的原因,有40%的用户想注册而注册不了而流失掉了,意思就是这10万块钱里面就有4万块钱浪费掉了,但是他的这个心的改版通过我们AB测试来验证一下,用1%的流量来验证一下, 虽然也有40%的损失,但是它是1%的40%,换句话说他不是损失4万块钱,而是损失400块钱,这就是先验性的意义所在。

并行性,也就是说我们真正A/B测试也好,产品优化也好,真正的使用场景并不是说我现在有一个迭代方案,然后去先验证一下然后决定是不是上线,不是这样的。显示当中你要做到优化,你必须,就是我们刚才说到的优化问题,解的空间是无限的,我不能一个个点着找,我必须同时找10个点,20个点,100个点,我要同时上线很多很多可能的方案,然后对它进行测试并行,而不是说上一个,不行再上一个,那样的话我一个月只能去验证2、3个idea。但是如果有了并行性,AB测试同时上线,1%的用户尝试这个方案,1%的用户尝试另一个方案,你就可以同时检验20个方案,100个方案,1000个方案都是有可能的。

科学性。是只改变一个条件的单盲试验,如果你的A/B测试的试验则和对照组并不只是改变了一个条件, 这个条件就是你想做的试验,你想迭代改版的东西。如果不是这样,比如说实验组的用户和对照组的用户还有一个另外的区别, 比如说我们刚才实验组里有王思聪,或者实验组用户享受了一些促销和优惠,对照组没有, 那么你的实验结果就不科学不可信,它对你没有帮助,那么这样说AB测试索要解决的问题,这也是A/B测试的价值所在。

4、AB测试提高效率

回到刚才的问题,你没有科学性,并行性,先验性,会发生什么呢,可能你第一次尝试A/B测试会觉得 ok ,我需要去花很多是人力精力,写很多代码去做A/B测试,花了一些时间,得出了一些结论,一个版本点击了100下,一个版本点击 了97下,那到底是提升了降低了还是没有变呢你也不知道,这样你的优化就无从谈起。正确的使用方法就是你有一套强大的工具,然后你可以同时上线很多很多迭代的方案,可能在一周的时间内就验证了100个想法。其中可能有60个70都是既不能带来增长,也不会降低的,可能会有十几个会跟你之前想象到的完全不同,它会降低你的营收,降低你的转化率,可能只有二十个或者十几个能够提升你的转化率,但是你就把这十几个发布出去,就可以产生效果,这就是使用A/B测试优化的方法。这个是 Google 天天所做的事情。

5、自建的复杂程度

如果你能够这样去做,你有一套工具可以轻松开展AB测试,它除了能帮你去优化之外呢, 他可以帮助你更快的改版,更快的上线,可以一键发布给所有的人,一键回滚,避免出现线上的事故,也可以实施的获取实验结果,加速制定期间的收敛,帮助你更快的决策,支持大量的并发试验。轻松管理海量的实验。如果你有这样一套工具,你的优惠就变得异常的强大,但是如果你需要这一套工具的话呢,我的建议是你不要自己去造轮子,我们AB测试就在做这件事情,AB测试这样一个工具,那么我们开发了一年半的时间,才刚刚基本没有bug了,系统比较完善,我们有强大的功能了,但是后面还有很多很多未来的挑战等待着我们,所以经验就是这个事情还是很复杂的。

6、国际顶尖增长黑客的方法

然后说一说我的老东家,硅谷的一些公司是怎么利用这些工具实现优化的。

Airbnb , 他们是对A/B测试实践非常非常精细的一个公司,它从第一天开始,所有的重要页面,关系到转化率的。比如说注册页面,注册页面转化率很重要喔,通过AB测试的方法来迭代,怎么做呢 ,它的每一个改版,每一个调优都首先灰度发布到1%的用户,比较大的可以先发布到5%的用户,去看看数据,用户的下单,用户的留存,用户的注册率转化率,根据这个来决定是上线还是打回重做,它就保证了 Airbnb 总是在不停的增长,不停的优化。

Google , 是最早实现这件事情的公司,现在每个月可能都会跑几百个实验,A/B测试,从中找到实解,当然主要是搜索结果和广告的点击率,这是特别重要的一件事情,通过这样的事情呢, Google 实现了每个月增长2%,不要小看这个数字,实际上 Google 通过这样每年可以达到20%增长率,它就可以一直超过华尔街对它的期待,那么它的股价就可以不断的攀升,不要小看了这个数字。开个玩笑话,微软,苹果并不能使用大规模AB测试这样一个黑科技来做迭代,为什么呢,微软它的一个重要产品,比如说 Xbox ,它想 Xbox 的配置做一个A/B测试时不现实的,苹果的 iPhone 也没有办法真的去做A/B测试,它就没有办法保证每个产品电脑推出迭代都可以优化,一旦它这个季度没有实现优化,没有实现增长,它的股价就会暴跌,微软和苹果都曾经出现股价腰斩的情况,但是 Google 从来没有出现过。

Facebook 在移动端每次的升级改版它都会把未来6个月要做的各种改版,全部都灰度的发布给用户,用你1%的用户试试这个改动,用1%的用户试试那个改动,只有对它转化率提升的,它才会发布出去,那些不好的就不会去发布。

知乎等。其实国内也有一些企业在践行这样的实验,比如百度的搜索,大众点评的推荐系统,还有知乎的运营,知乎我就说个例子,知乎他们通过数据发现如果一个用户在知乎上回答了超过3个问题,他就会比没有回到够3个问题的活跃度高一倍以上,它就会觉得一个用户回答3个问题很重要,那怎么办呢,它就用AB测试,筛选了一部分新用户把它拆成试验组合对照组,对实验组的新用户就会用他的运营人员,比如说是男性用户,就会伪装成美女去邀请你去回答三个问题,邀请你回答一个问题,回答了,再邀请你回答,再邀请你回答,等你回答了3个问题她就不邀请你了。然后呢,他就会AB测试对比,用了这个策略的新用户和没有用这个策略的新用户哪个更活跃。实验结果非常好,用了这个方案能够带来转化率的增长,能够提升,所以它就发布给所有用户。如果你是新注册的知乎用户,你相信我,你一定会被邀请回答3个问题。

7、高效AB测试七条黑客经验

接下来,因为AB测试这件事情很复杂,所以我们在这里不可能展开说的特别细,但是有一些经验确实非常通用的,这个我们在其他场合也分享过,但在这里大家还是可以去再次感受一下,了解一下高效AB测试七条黑客经验。

效果惊人:你产品的一些微小的改动,有可能就造成对 KPI 的巨大影响。有的时候一个颜色的变化就有可能带来100%的分享率的提高,都是有可能的。像我们自己的客户,在他们自己的教育类网站,他们注册改了一个文案,就提升30%的学生注册率。

耐心测试:但是大多数会的改动并不会大幅度提高 KPI ,就像你做100个实验可能6、70个都没有什么用,这是非常可能的。

Twyman法则:而且对于这件事情还有一个 Twyman 提出的法则,跟墨菲定律一下很搞笑,说的是凡是看上去很出人意料的图表,通常都是因为数据统计错了。

你很不同:另外产品之间往往可以参照的东西不多,你去复杂他人的经验往往没有用。开玩笑说如果京东把亚马逊的一些策略拿过来,说不定有点用,但可能不好,如果抄淘宝的,可能会是灾难性的后果。

速度是关键:但是任何能够加速用户响应时间的改动,都会给 KPI 带来提升,一定要记住了如果你的技术团队有能力让你的 Html5 页面变得更快,或者让你的网站打开的更快,或者 App 响应的更快,就让他们全力以赴去做,给他们无限的支持,因为这一定会给你带来正面的提升。

关注产品的质量:你想要在一个环节中提升点击率其实不难,就像我说的点进来是大奖,或者你在推送消息的时候说您有一个大礼包待领取,或者您有一个奖待领取,这种方法往往能产生一个很好的点击率。或者你在电商平台,你的展示方式是一个大美女,那么一定往往能提升你的点击率,但是这件事情对你的产品并没有什么本质的帮助,他们不会有实质性的帮助,更重的是你要考虑的是真正核心的用户转化率在哪里。我们有个定义叫 Core Action ,就是你的用户到底什么样一个行动,这件事情的转化率最重要,你要搞明白。对 Facebook 来说他的转化率最重要就是他去发布了一个行动,或者是加了一个好友,这件事情可能特别特别重要。对 Google 来说可能最重要的转化率是用户点击搜索结果这件事情很重要。对 Uber 来说,可能用户召唤一个行程可能特别重要,一定要关注在这个产品质量上面。

快速轻量迭代:另外在做迭代的时候一定要做一些轻量的,做一些小的改动,做一些小的实验,千万不要去做大实验,因为这种东西往往是弊大于利的。你做一个大的改动,最糟糕的情况是你把用户群都变了,原来很喜欢的用户他走了,多糟糕啊,来了一些新用户你指望他们重新填充你的 retention 留存率是挺难的一件事情。另外你一个大的改动,你很多地方都改了,那么你的实验结果也没有办法归一,没有办法去帮助你去积累经验。你确实在优化的解空间当中的一个点跳到了好远好远地方的另一个点,那么中间这些点会有什么变化你一无所知。但是你用轻量迭代就能帮助你去积累更好的经验了。

用户数量是基础:最后,用户数量也是个问题,如果你只有100个用户,可能A/B测试并不是一个适合的黑科技对于你来说,你可能需要更多的是用户调研,用户分析。只有当你有了1000个日活的时候,可能AB测试这种迭代的方法才有效,否则你的实验结果是不准确的。开玩笑说,如果你只有两个用户,一个人说你好一个人说你不好,那么你信谁呢,那么AB测试对你是没有用的。

8、优化指标的设计

还有一点也很重要,就是我们刚才所说的优化指标的设计,我们刚才列举了很多 PV , UV 用户留存时间等等,但是在每个阶段在每个我们实验设计里都会有一个不同的优化指标,这是很可以理解的,也是正确的。但是你要想一个问题是,你的真正的远景目标是什么,我们管他叫北极星。这个北极星很重要,就是你的所有努力其实要朝着北极星进发,然后你每一次优化的时候你的优化指标都应是拖动你的发展方向更靠近这个北极星,他不一定时要直直的去的,它可以是歪着去的,但是他歪着去之后呢,你要不断去调整你的优化指标,让他越来越靠近你的北极星。我觉得最成功的产品在这方面的把握是最好的。不忘初心,还是刚才那个观点,你不要总是想着一个细节的点击率,而是你要有一个更远大的目标,那么在这里 core action 很有用。

案例讲解

墨迹天气:

墨迹天气,它是一个很工具类的 App ,他的用户体验很不错,我们公认他是一个非常棒的产品,但是他依然很关注转化率的提高,比如说分享,他希望大家能够分享更多墨迹的故事,天气的故事,天气的内容,他的分享的图标,哪怕是一个小小的图标的变化,也会带来转化率不同,比如像这个案例里面,三种不同的设计对比原始的分享的设计,方案三能够提高18%的分享率,其实非常的高,他可能每天有10万的分享就带来1万的增长,这是不得了的一个事情,然后你会看到很有意思就是这个置信区间,有时候也是比较宽的,当你的实验流量不多的时候,比如说方案二提升了5%,也是提升的,但他是从-1%到+10%,那么就不是那么确定性的结果,这是一个小小的例子。

googlesecret

滴滴:

滴滴也是我们一个很有意思的客户,对滴滴来说他需要的转化率不一定是打车的人,他不需要很多打车的人,但是他需要很多很多接单的司机。他通过A/B测试也可以提升司机的注册率20%以上,通过尝试不同的设计和文案,当然, A/B测试帮助他提升效果是一方面,真正提升了转化率,但是另一方面,也可以通过这个试验更好的理解自己的用户。他最左边这种招募司机的方案为什么转化率不高呢,我们一分析,通过试验我们理解了,对比后面两个方案,第一个方案他的设计不明确,就是他到底是招募车主还是招募打车的人,不知道。可能有很多误点进来的人,他可能以为是招打车的人。那么中间这个版本就会好很多,“每天跑一单,油钱轻松赚”,鼓励你来做滴滴的司机,赚钱。但是也不是那么完美,因为可能很多有兴趣的人点进来发现我要上传行驶证,上传驾驶,觉得我当这个司机好麻烦,没有形成最终的转化。那么最后一个为什么效果是最好的呢,因为车主招募这个事情很明确,这个产品,这个设计就是让大家知道就是招司机的。你可以来做滴滴的车主,可以来赚钱,这些人目的很明确,他来了转化率救会比较高。所以你就会看到一个很有意思的现象就是做了AB测试产生了效果并且获得了经验,这个对我们产品经理还是更重要的一件事情。

乐动力:

最后一个案例是我们的乐动力,这个案例就是他鼓励他的用户去下载这个跑步的 App ,那么这种方式,为了统计学,A/B测试更加准确,它会考虑看这个时间,这个过去两周发生的时间,红色的方案一直都比其他的更好,他就知道了这个设计是更好的。

Q&A

1、移动网站用什么工具做AB测试?

我们吆喝科技做的这个 AppAdhoc 这个A/B测试工具就可以帮你做移动网站或者移动 App 的A/B测试,帮助你去优化。

2、优化之中的置信区间是什么意思?

置信区间是一个很重要的概念,他是和AB测试紧密相关的,是用一种统计学的方法,来分析实验组和对照组连个随机过程的采样的数据。他们通过对比他的采样数据,对这两个随机模型的参数进行一个统计学意义上的对比,然后最后形成一个一定置信度的变化区间。其实如果你不是AB测试,而是直接上线一个东西,再下线一个东西,根据数据来分析,也会有置信区间的问题,但是一般那种置信区间会很宽很宽,意思就是你基本上不知道结论是什么。那么一个AB测试的置信区间,他往往是这样一个概念,就好像刚才我们ppt里举的例子,就是说对照实验组使得你某一个指标的转化率提升了15%,然后他的95%置信区间是从10%到20%,就是说你把这个实验组版本方案迭代,把这个方案发布给所有的用户,那么你有至少95%的概率可以提升10%以上,而且有比较大的概率可能是最终提升了15%,也有一定小概率会提升20%。这就是置信区间的概念。当然你也有5%的概率这个变化不在提升的这个区间之内,也是有可能的。在工业上,我们一般都会有95%置信区间。举个例子,如果你看到你的实验结果置信区间是从-3%到+3%,那么很可能发生了什么呢,你的这个实验版本既不能给你带来增长,也不能带来下降。如果你是3%到6%,那么你可以基本确定这是一个好的优化方案。他能带来增长,如果他是-5%到-2%,那么这个方案千万别上线,他会带来负增长。

3、AB测试一般要测试多少天,积攒多少样本才能得出结果?

积攒多少样本才能得出结论这件事情和置信区间也是相关的,置信区间要足够窄才能说你得出了一个比较好的结论。积攒样本这件事情取决于几个方面,一个是试验流量本身,一个是转化率本身,比如说你的转化率非常的低,你只有百分之零点零几的转化率,那么你可能需要非常非常多的样本才能够做出有效的测试。但是如果你的转化率是50%,那么可能你有1000个样本你就够了,跑一个小时就够了,但是A/B测试测试要持续多少天这件事情我要提一下,A/B测试一般要持续7天,或者14天,这是是因为AB测试是只改变一个条件的单盲测试,就是你只改变一个条件,你的实验本身其他都不变,你当然希望整个试验时间覆盖用户的周中的行为和周末的行为,他星期一到星期五的行为可能和星期六星期天不一样,所以7天是一个比较理想的时间。当然如果你想更确信,最好跑14天,如果你的流量比较少的话,你可能要跑更长的天数。然后你怎么得出结论,你就等这个置信区间收窄,窄到一定程度你就可以说 ok ,好了,可以上线了,或是可以下线了。

4、Facebook 是如何做A/B测试的?

Facebook 在发布新 App 的时候,会对未来几个月想做的做AB测试,那么是怎么做的呢,Facebook 做了一套系统, Gatekeeper 和 Airlock ,他是大概花了2年时间,40个工程师,借鉴了 Google 的一些想法,又解决了移动端的一些问题。有了这样一套系统之后呢,他的产品上线的流程也深入的集成了A/B测试,他在需求评审阶段就会产生各种各样的想法,各种各样可能的功能,各种各样的变化,然后交付实施,这些实施都是通过 Gatekeeper 的方式上线的。也就是灰度的发布给用户,然后再用 Airlock 的方式放流量进来,让一部分用户去尝试新的功能,只有那些好的功能才会保留下来,在下一次 App 改版的时候会正式的全面的发布给所有的用户。而那些不好的功能可能就关闭, 不上线,然后再下一次迭代的时候除了会把上一次成功的版本全部发给新用户,还会添加一些新的实验进去。所以他每次迭代都是把新的实验发布出去,然后不成功的实验打回去重做,然后再加一些新的实验进去,这就是他每次迭代的流程。如果你要做 App 这样的方式的迭代,用我们 AppAdhoc SDK 也可以去做。会比 Gatekeeper 和 Airlock 更加强大一些,支持可视化的编辑,可视化的界面A/B测试。

5.WEB产品页面优化可以用AB测试么?

当然可以, Google 天天在做,很过国内的公司也在做了,比如说携程也在做,

6.汽车行业做车友汽车的,这种传统行业怎么做AB测试

很简单,如果你是维护这个 PC 网站的,那么以后你的决策要更灵活,你甚至应该招一些年轻人来,让他们脑洞大开,你的网站继承 AppAdhoc 的 javascript 的代码,然后你就可以去大量的同时上线一些改版,比如说1%的用户去试试看新的表单的位置,另外1%的用户去体验一眼和保险公司的合作项目,另外一些可以放更多的汽车banner的展示,看看哪个转化率是更高的。以前项目的上线可能是100%的用户都看到的,但他不一定好,对你未必是一个好事情。你可以大胆的去用小流量去验证。

7.A/B测试接入 SDK 是如何展开的?流量来源如何选择?

对于A/B测试比较陌生的产品经理来说可能会比较糊涂,那么其实你接入了 SDK ,无论 App 还是网站,你接下来的事情就很简单,比如说你的一个新想法要上线了。你可以通过我们这个 SDK 可视化编辑,改文案,或者你的工程师可以把这个功能通过我们的 SDK 灰度的集成到上面,同样还是一个包或者一个网站,但是不是所有用户都会看到他,你想让多少用户看到他,在我们这个平台上,比如控制一下1%的用户看到这个改版,你会发现某一个改版可以提升10%的用户,那么你就可以上线,是这样一个流程。集成 SDK ,把你的想法,你的脑洞通过这种可视化的方式创建一个实验,然后一开始这些实验版本都是没有用户会看到的,然后通过我们的平台可以放1%的流量到一个版本,放1%的流量到另外一个版本。或者5%,都可以,来决策这样一个体验。

8.AB测试在生产环节是加白名单的方式还是直接测试环境上测试的。就是拿一部分用户试试看,然后再上线?

不是这样的,你说的这个呢是 QA 的模式,还是一种传统的方法,那么这种 QA 的方法就和传统企业一样,像微软一样,他先做 Xbox 原型,然后再让一些微软的同事或者测试用户试用,试用玩家觉得好,然后他再大规模量产,但这种方式是比较落后的。真正的AB测试这样一个强大的工具,它强大在哪呢?它强大到可以让所有用户来直接参与你的实验。比如说你有100万用户,你划1%就有1万用户会体验你这个新版,他们是精心筛选出来的,他们可以去尝试这个新版,他们产生的AB测试数据是可信的。他提升了5%就是你最后发布了就可以提升你所有收入的5%。如果他下降了10%,那么你就不要让他上线,如果上线了,你可能有很大的概率带点来10%的损失,这就是AB测试强大或者黑科技的点,就是为什么 Google 把他作为秘密武器,我们希望把这个秘密武器变成一个常规武器给大家用。就是他不是那种拿一部分用户来试试看,然后再上线,这种方法是不行的, Google 也做过这样的实验, Google 做过一个产品叫 Google Plus ,社交产品,它给 Google 所有的员工开放,发现数据很好,活跃很好, 比 Facebook 强多了,然后他发布给所有用户怎么样了呢?他连注册量都不够更不用说和 Facebook 比活跃度了。所以这就是A/B测试的意义或者他强大的地方。

希望大家能够不断的实现自己产品的优化,实现增长。

吆喝科技:国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 测试服务的专业 SaaS 平台。支持线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试。

用数据帮助用户优化产品,提升转化、留存和你想要的一切。 AppAdhoc 用数据验证最佳方案,提高产品设计、研发、运营和营销效率,降低产品决策风险。

6623 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。