A/B测试:改变商业世界的技术内核

a-b-test
Dan Siroker 帮助公司发现难以察觉的真理,但他的故事却从谎言开始。
2007年11月,当时民主党总统候选人巴拉克-奥巴马在加州山景城的 Google 总部发言。 Siroke —— 网站测试公司 Optimizely  的 CEO ,那时候还是 Google 浏览器团队的产品经理。他想从后台入口抄近道进去,“我走向保安,说‘我要进去参会,’”, Siroker 回忆起来,根本就没会可开,但他的咋咋呼呼让他进来了。
在谈话中,奥巴马向时任 Google CEO 的埃里克施密特提了一个有趣的问题:“给100万个32位整数排序最有效的方法是什么?”施密特很感兴趣,但当他的回答转到真正答案的时候,奥巴马阻止了他,“恩,我觉得冒泡排序是错误的方法”奥巴马说。施密特不可置信的把手放在额头,房间里爆发出热烈的掌声。 Siroker 立刻被迷住了,他说:“他(奥巴马)的冒泡排序打动了我。” 两星期后,他离开谷歌移居芝加哥,作为数字顾问加入了奥巴马竞选团队。
期初他不知道该如何帮助竞选,但他回忆起奥巴马对 Google 员工说过的一句话:“我是一个忠实的信徒,坚信理性、事实、证据、科学和反馈,所有这一切才能让你做你要做的事,这就是我们的政府应该做的。”因此 Siroker 决定在竞选团队引入一项关键技术——这项技术是 Google 依赖于开发和完善其产品的一种管理理念,他向竞选团队展示了如何进行A/B测试。
过去10年里,A/B测试的洪荒之力已经成为高风险 Web 开发行业的公开秘密,现在已经是整个硅谷改进其在线产品的标准方式。使用A/B测试,新想法可以实时进行焦点小组测试:不被告知,让一小部分用户转向到给定网页的略微不同的版本,并且他们的行为会跟标准网站的用户质量进行对比。如果新版本获得更多点击次数,更长的访问次数,更多的购买次数,则会取代原始版本;如果新版本较差,它就被安静地淘汰,大多数用户不会看到它。A/B测试允许看似主观的设计问题如颜色、布局、图像选择、文本等,成为数据驱动社会科学不可逆转的事情。
加入奥巴马团队后, Siroker 使用A/B测试重新思考竞选网站的基本元素。新媒体团队已经知道,他们最大的挑战是将网站的访问者转化为订阅者 – 对电子邮件地址进行评分,以便鼓励最终将活动邮件转化为捐赠。访问从一个背景为奥巴马的发光的绿松石照片和明亮的红色“注册”按钮的启动页开始,但是点击按钮的人太少了。在 Siroker 的领导下,团队用新的精度来解决问题。他们把页面分为不同的组成部分,并为它们准备不同的替代选择。对按钮用3个新单词进行了A/B测试,“了解更多”、“立即加入我们”和“立即注册”,结果显示“了解更多”按钮每个访客的注册次数比默认值“注册”多18.6%。同样,奥巴马家族的一张黑白照片比默认的绿松石照片好13.1%,同时使用家庭形象和“了解更多”,注册惊人的增加了40%。
最令奥巴马团队震撼的是测试给直觉所带来的颠覆。工作人员几乎一致地以为奥巴马在一次集会上的演讲视频会胜过任何照片,但实际上,这个视频甚至比绿松石照片还差了30.3%。如果团队倾听了直觉,继续把“注册”作为按钮文本,把照片替换为视频,注册率将滑落到基准的70%。(“假设往往是错的”, Siroker 简短地说。)没有严格的数据收集和A/B测试的控制,团队甚至可能不知道为什么他们的数字已经下降,并在对候选人的热情下降和劣质网站带来的下降之间混淆不清。相反,当比率上升到基准的140%的时候,团队知道应该归功于那些事,那些人。到活动结束时,竞选的1300万封邮件里大约有400万个邮件地址,以及大约7500万美元的筹集资金是由 Siroker 的仔细试验产生的。
A/B测试在政治领域是一个新的见解,但它在网络上的应用至少可追溯到2000年。在过去十年里,作为硅谷的一家巨无霸, Google 在推广A/B测试方面做得比其他任何公司都多,  Google 的工程师们在2000年2月27日进行了第一次A/B测试。他们那时候想知道当时搜索引擎结果里每页显示的条目数,是不是对用户体验最好,当时(现在也是)默认为10条。所以他们进行了一个试验。对于搜索引擎的流量的0.1%,他们每页提供20个结果,另有0.1%的人看到了25个结果,另一组30个。由于技术故障,实验是一场灾难。实验组观察到的页面加载明显比对照慢,导致相关的度量值下降。但是这本身产生了一个重要的见解 – 十分之一秒可以以一个精确量化的方式创造/打破用户满意度。很快, Google 调整了响应时间,真正的A/B测试开始兴起。2011年, Google 在其搜索算法上运行了超过7000个A/B测试。 Amazon.com,Netflix 和 eBay 也是A/B的忠实拥趸,不断对在线(和不知情的)用户测试潜在的网站变化。
今天,A/B是无所不在的,这种无处不在的奇怪后果之一是,我们对网络的思考已经变得越来越过时。我们谈论 Google 首页或 Amazon 结帐页,更准确地说法是,你访问了 Google 首页和 Amazon 结帐页。当用户发起搜索时,有多少百分比的 Google 用户获得某种“实验性”页面或结果? Google 搜索测试负责人斯科特·霍夫曼说“作为 Google 员工,我不会给出一个精确的答案” 。使用称为多变量测试的技术,其中无数A/B测试基本上同时在尽可能多的组合中运行,这意味着用户获得某种调整的百分比可能接近100%,让“ Google 搜索体验”成为一种柏拉图式的理想:从来不会直接达到完美,只有通过不完美的推导和变化来实现。
然而,尽管其流行程度不断扩大,但A/B测试技术并不简单。在优化中,它需要一些高级的技术方式来分配用户流量并重新安排一个网站;用户细分和对结果的理解需要深入的统计知识。这是任何缺乏这些资源却想创建和评判自己的测试系统的公司的障碍。2006年, Google 发布了网站优化工具,为想要运行A/B测试的任何人提供了一个免费工具。但是该工具需要站点设计人员为方案 A 和方案 B 创建两套完整的代码集合,这意味着非程序员(市场营销,编辑或产品人员)如果没有工程师协助写出多个版本就无法运行测试。因此,在公司等待写代码和上线的过程中,获得结果时出现了巨大的延迟。
2009年,这依然是一个需要解决方案的问题。奥巴马竞选结束后, Siroker 对A/B测试的效果感到惊讶,但也缺乏可以方便访问的工具。 “我们当时使用的工具的让我蒙上了阴影,”他说。到年底, Siroker 与另一名前 Google 员工 Pete Koomen 合作,创办了一家公司,目标是将A/B测试工具推广到企业群体,这就是 Optimizely 。“在我们花了很多时间打磨产品之前”,Optimizely 意外地得到了第一个签约用户,Siroker 解释说,“我打电话给奥巴马竞选团队里的一个人,他有一家数字营销公司。我告诉他我正在做什么,沟通了大约20分钟,他突然说,‘听起来不错,寄给我一张发票吧。’”他认为这是一次电话销售。
已经开始销售了,但他们还没有产品。所以 Siroker 和 Koomen 开始写代码。与早期的A/B测试工具不同, Optimizely 的设计方便非程序员使用,具有强大的图形界面,允许客户端即时拖动,调整大小,重新键入,替换,插入和删除,然后跟踪用户行为并传送结果。这是一个提供A/B经验的直观平台,目标客户包括像谷歌和亚马逊这样的网络巨头,也包括中小型公司——哪怕它们没有核心开发或测试团队。
这不仅意味着一个灵活设计网站的方法。
通过使所有这些决定都遵循数据规则,A/B测试可能会改变采用它的公司的经营理念,甚至是权力结构。 A/B测试正在改变公司开发网站的方式,并在此过程中,重写一些基本的业务规则。
下面是一些新规则。
你必须做出选择。
选择一切。
在线支付平台 WePay 通过测试流程设计了整个主页。 “我们做了一场比赛”首席执行官比尔·克莱里科说, “我们的几个工程师建立了不同的主页,我们只是让它们轮流展现。”两个月里,访问 WePay.com 的每个用户会被随机分配一个主页,最后由数字做出决定。
在过去,这项工作是不可能的,因为让设计以一种完全不同的方式出现是不可能实现的。公司里的人,也许是 Clerico 自己,会选择一个设计。但是通过A/B测试, WePay不需要做出决定。毕竟,如果你可以测试一切,然后只是选择所有上述,让客户来进行排序就好呀。
出于同样的原因,A/B测试让会议变得无关紧要。例如,新闻网站的编辑可能坐在办公桌旁15分钟,试图决定一个重要标题的最佳短语,他们可以简单地运行所有提议的标题,让测试决定。共识,甚至民主,已经被多元化——所有这一切都将由数据解决。
“选择一切”的口头禅也成为公司测试与其他公司关系的一种方式。这样做成为他们赢得新业务和接纳更大竞争对手的有力方式。 2011年,一个名为 GoFundMe 的众筹网站与 WePay 谈论了从支付巨头 PayPal 切换到其服务的可能性。 GoFundMe 的 CEO Brad Damphousse 对 PayPal 的服务不满意, WePay 的回应,跟创业公司通常做的一样,声称它们的产品解决了困扰其竞争对手的所有问题。 “当然,我们怀疑,并没有真的相信他们,” Damphousse 笑着回忆。
但是通过使用A/B测试, WePay 给了 Damphousse 一个不可能拒绝的命题:给我们10%的流量,并实时测试对比跟 PayPal 的结果。对于初创公司来说,这是一种几乎完全无风险的证明自己的方式,而且它的回报也很高。 Damphousse 看到第一天早上的数据后,下午就给 WePay 切了一半的流量,第二天切了所有的流量。
 
领导做决策。
数据做决策。
Google 内部人员和一般的A/B测试爱好者中,有一个贬义词来描述一个没有把数据放在心中的决策系统:河马(HiPPO)——“最高报酬者的意见”。正如 Google 分析专家 Avinash Kaushik 所言:“大多数网站烂透了,因为 HiPPO 创造了它们。”
技术圈里充斥着一个无知老板的故事,他几乎因为“纯粹的意见”杀死了一个项目。
在亚马逊的早期,开发人员 Greg Linden 提出了一个想法,即在客户检查时基于他们购物车里有什么,给予个性化的“冲动购买”建议。他为新功能做了一个 Demo ,但被否决了。林登勇敢地想到这个想法甚至可能没有被测试。 “我被告知禁止进行进一步的工作,这个想法应该停在那里。”
但是, Linden 做了A/B测试。试验表明,亚马逊从该功能可以获得这么多收入,所有的反对立刻失去意义。 “我知道在一些组织,无论对错,挑战 SVP 都会是一个致命的错误” Linden 在关于这个主题的博客里写道。但是一旦他做了客观测试,把想法放在真实客户面前,高层不得不弯腰。亚马逊的文化里不允许这种现象。
Siroker 回忆起在奥巴马竞选期间的类似转变。 “一开始是在一个漂亮的政治环境里,在那里,你可以想象,HiPPO 综合症至高无上。我认为随着时间的推移,人们开始看到退后一步的价值,说:“这里有三件事我们应该尝试。让我们进行一个实验,看看什么是有效的,什么是我们不知道的。”
这是他从 Google 学来的文化,你可以称之为数据的民主。 “早在 Google 成立之初” Siroker 解释说,“如果一个工程师有一个想法,有数据来支持它,即便他们不是一些业务部门的副总裁也毫无关系,他们可以做这件事。这就是谷歌从一开始就相信的文化。”一旦采用,这种方法每次都会击败 HiPPO ,他说。 “A/B测试能让一类企业说,”我们希望以 Google 的方式来做。我们想以亚马逊的方式做。”
WePay 的 Bill Clerico 说:“在 Facebook ,在宗教看法的标题下,我的个人资料里写着: 除了在上帝面前,其他任何情况,给我看你的数据。(In God we trust . All others , bring data .)
风险造成了一个巨大的错误。
风险带来微小的改善。
这种数据驱动革命的一个后果是,整个软件开发,甚至思考它的态度都会受到微妙的约束。许多开发商告诉我,A/B测试可能减少了他们产品的巨大的、戏剧性变化的数量。他们现在认为全盘调整太冒险了,相反,他们想将每个想法分解成更小的部分,每个部分都经过测试,然后逐渐逐步投入流量。
但是这种方法,以及它的心态,也有自己的风险。公司可以保护自己免受重大失误,但承受了一种缓慢渐进式改革的风险。他们可能会发现自己追逐“局部最大化”——A / B测试可能在约束条件内创造最好的结果,而不是追求真正的突破。 Google 的 Scott Huffman 认为这是面向测试心态的最大风险之一:“我们花很多时间谈论的一件事是,当需要更大的变化时,我们如何防止渐进式主义。这很困难,因为这些测试工具可以真正激励工程团队,但只尝试小的变化,也可能不会给他们带来巨大的激励。我们希望这些小小的改进,但我们也希望跳出框外。”亨利福特有一句名言“如果我问我的客户他们想要什么,他们会说一匹更快的马“, Huffman 补充说, “如果你太依赖数据,你永远不会另辟蹊径,你只是在继续做一条更好的马鞭。”
经验给我们教训。
数据可能让很好的想法过时。
A/B测试在其历史上的一个最大的演变不是它已经变得多么地普遍,而是它进化得多快。在00年代早期,测试结果通常延迟24小时:你今天进行测试,明天看到结果,并学到了了一个原则,一个经验法则——适用于未来的设计。这可能解释了为什么在移动到产品小组之前,市场营销团队会先开始进行测试:广告通常会持续许多天,这使得他们能够以这种速度进行优化。但对于许多网络业务,产品太动态,等不了那么久。
但是今天不一样了。 “十年前,你没有数据。五年前,最好的报告工具落后一天”,家具零售商 One Kings Lane 的产品副总裁 Yulie Kim 说,“但是我们处在一个不能等了一整天只为得到数据的时代。” Kim 的老板,首席执行官 Doug Mack 认为反馈的速度已经成为运营的一个组成部分:“大数据是不够的,它还必须是实时数据,我们可以在一天的任意时间段采取行动。这对我们的业务增长是一个巨大的福音。”
与实时测试的区别不仅在于没有时间学习和应用经验教训。它比这更激进:没有明确的经验去学习,没有规则可提取。
例如,游戏公司 IGN 的管理人员发现,在首页的某些部分清晰的文字表现超越了预言的流行语(如免费和独家)。但在前几年,这是相反的。为什么?公司内部讨论它,但没有人能想出为什么。很快,他们意识到,这根本没关系, A/B测试会指导他们,所以没必要担心为什么用户以这样或那样的方式采取行动。
同样, One Kings Lane 有一个商业模式,涉及每天清空库存, Optimizely 的A/B测试工具在这些“闪电销售”的即时改进中发挥了重要作用。为什么人们更喜欢褥榻出现在投掷地毯的左边,而不是右边?没有时间来问这个问题,也没有理由回答它。毕竟,什么能比得到正确的结果是什么更重要?保持测试,保持反应,并把它作为你的哲学,即使是在工作之外。
如果你最后发现这意味着有点麻烦,你不是一个人。即使我们接受测试对于学习如何经营业务很有用,但很难采取下一步骤,也很难接受我们学不会如何经营我们的业务。事实上,随着A/B测试变得越来越广泛,我们可能甚至不知道测试正在做出什么样的选择:A/B测试的一个新兴趋势是自动化判断测试的整个过程,以便软件得到统计显著结果时,简单地将所有流量转移到性能更好的选项,不需要人工监督。
在更基本的层面上,A/B测试文化削弱了我们的创新意识。初创公司,我们想象,很大程度上成功或失败的长期战略决策是不可能以这样的精度进行测试的。同样,很难想象一家中型公司通过A/B测试从默默无名变为一个十亿美元的巨头。即使在技术巨头之间,似乎最重要的决定对焦点分组都是免疫的,更不用说A/B测试。
是的,谷歌已经通过监测数据建立了自己的帝国,但我们对乔布斯给苹果设定的愿景感到敬畏,我们在听到他所提出的知名答案时问道,他为 iPad 做了多少市场测试:“一次都没做”他说,呼应亨利·福特,“知道他们想要什么不是消费者的工作。”事实上,难以想象以前的 Macintosh 机,它没有扩展插槽和坚固的底盘,完全通过进化来调整。无槽版本怎么可能赢得了插槽版本?一个单键鼠标怎么能边缘化一个双键鼠标?然而不知何故,当一些表面上的负面特征,以精确的方式组合时,就实现了某种宁静,优雅,和禅。
这种二选一是不成立的。当然,对于建立数据视野,伟大的天才反对只是依靠实验,好像公司被迫在两者之间选择。但至少每个公司都应该测试一些小细节;并没有公司应该(或确实)使用A/B测试的一切。谷歌不是随机进行测试的,而是依赖于直觉,当然,愿景是以缩小无限数量的可能的变化到有限的可测试候选人。
但同样真实的是,A/B测试文化,部分地通过羞辱其 HiPPO 提交,有时可能会导致公司步入绝境路径。测试允许你不断地对用户喜好做出反应,但这不一定使你敏捷;当需要时,10,000个正在进行的调整不会叠加到方向的基本改变。几乎每一个成功的公司都必须在某种程度上彻底改变过程,而且往往这种双重下降的决定不能在度量或软启动时作出。正如一个测试文化可能让它很难解决大问题,它也可以使它很难停止出汗的小东西。前谷歌设计师道格拉斯·鲍曼(Douglas Bowman)在他离开公司的那天,在他的博客上写道:“最近的争论是,边界应该是3,4或5像素宽,并被要求证明我的情况。”,“我不能在这样的环境中工作。”
苹果设计的最低限度已经渗透到技术之外的世界。所以公平地问:谷歌的A/B测试精神的科学严谨性开始在互联网之外挥舞?有可能A/B测试离线世界吗?随着大数据的兴起,一些大型零售商正在接受试验方法。连锁店会在几个地点测试商店平面图,如果他们提高了收入的话,然后会在全国范围内实施。一些零售软件包将监督单个产品的推出,将其放在整个系统的几个货架上并跟踪其销售。
但是物理现实的约束使得试验难以和平时一模一样,或者控制一个实验,使得结果不是由于位置因素或天气或一些其他未知(和不可知的)变量而产生不明确的偏见。面对这些模糊, HiPPO 仍然可以有自己的话,而不必担心矛盾。只有在数字领域,才有可能在完全相同的地点和时间做出两种不同的事情,从而产生能够改变制度权威的整体性质的数据。
许多互联网工作者,尝过A/B测试的苹果,不能再想象在任何其他环境中操作。事实上,他们开始沮丧地远离离线世界,这是一个可怕的地方,我们每个人只有一个生活,而不是两个(或更多)并行的生活。 “街上有个吃烧烤和奶酪的地方,”  One Kings Lane 的市场营销副总裁 Jim Kingsbury 说,“他们不能测试任何东西,应该把三明治定价在6美元还是6.50美元?什么应该放在菜单的顶部?这些都是他们必须做的纯粹直观的选择。”在硅谷的一间办公室,我听到一个员工抱怨说约会不能进行A/B测试;一个在线个人资料肯定可以,但一旦你与一个特定的人产生关系,每一个决定都需要你投入100%的“流量”。
可测试的网站是如此的安全。没有选择是困难的,不需要反思。为什么 B 比 A 好?谁能说?在工作日结束时,我们只能耸耸肩:我选了 B ,我们不知道为什么,但这就是工作。
7562 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。