关于试验——产品经理应该了解的一切

很多人都知道他们应该做试验并对产品做测试,但不知道从哪儿着手。所以,下面是告诉你如何开始试验的完全指南。

这篇文章将通过鸟瞰式的试验循环,目的是帮你把试验变成一个过程,成为产品管理中正常而又自然的一部分。试验周期由以下部分组成:

  1. 计划
  2. 实现
  3. 监控
  4. 行动

通过闭合这个循环,试验结果反馈到: a)试验计划,b)待开发任务列表,或 c)开发优先级,这个循环在很多方面类似于 OODA 循环。

 

image1

图1:试验周期——规划—>实施—>监测—>规划

 

通过试验来让你的产品变得更好。如果试验结果没有产生要运行的新试验或产品开发的变更,那么你的进程或正在运行的试验可能有错。记住,知道不做什么也能让你的产品变得更好。

在本文中,我会开始规划和设计试验,通过常用的工具和技术开始实施试验,并监控试验运行。要退出,我们会看对试验结果的操作(重新启动循环)。

 

规划试验

在不进行任何规划的情况下进行试验是很有诱惑力的。这种方法可行,但很难让你从试验和运行试验的过程中充分受益。

 

从一个问题开始

试验的一个良好的开端是提出一个问题,然后做出几个回答问题的假设。一旦你有了这些假设,就可以设计证明或反驳假设的试验。

我们来看一个例子。转化率对公司非常重要,推动更高的转化率是一个关键目标。所以问题变成:

  • “为什么目标网页的转化率不是30%?”

考虑到这个问题,现在我们创建几个假设作为测试的起点:

  1. 号召性用语应为红色按钮
  2. 没有清楚地传递注册的价值
  3. 网页上有好几个不同的号召性用语

不幸的是,这些都不是很好的书面假设。让我们对如何指定假设提一些严格的要求,以便我们完全理解正在发生的情况。构造假设语句的传统方法是使用 “if”,“then” 方法,例如:

  • “如果我给植物浇水,那么植物会生长”

或者结构略有不同

  • “如果我不给植物浇水,那么植物不会生长”

因此,如果我们用 if / then 格式重述上述假设,它们变成:

  1. 如果号召性用语按钮用红色,那么注册人数会上升
  2. 如果我们改变能传递价值的注册页面副本,那么注册的人数会上升
  3. 如果我们删除网页上除了一个号召性用语之外的所有其他号召性用语,则注册的人数会上升

这些假设说明了独立变量(位于 if 之后)和因变量(位于 then 之后)。这样的假设还可以用一个“因为”子句来扩展,它规定了为什么你认为因果关系存在。比如说:

  1. 如果号召性用语按钮为红色,那么注册的人数将上升,因为页面上的红色按钮做了突出显示
  2. 如果我们改变说明注册价值的副本,那么注册的人数将上升,因为他们能理解他们获得的价值
  3. 如果我们移除网页上除了一个号召性用语之外的所有号召性用语,那么注册的人数将上升,因为他们不会被多个号召性用语分心

一个好的假设是能用可控的自变量和可测量的因变量来检验的假设。它清楚地解释了将要改变什么和改变的预期效果。

对此的实际测试是,其他人是否能读懂并向你解释,将会做出什么样的改变,又能产生什么样的预期效果。如果他们不能,那么你需要重新审视假设。你要能把你的假设交给那些可以设计测试假设所必需的试验的人。

 

从假设到试验

一旦有了假设,就需要创建试验来测试假设。试验要允许自变量(位于 if 之后)的受控改变,并测量因变量(位于 then 之后)的变化(如果可以的话)。

如果你已经很好地描述了你的假设,显然现在需要根据假设来测试试验。例如,设计试验的假设为:

  • 如果号召性用语按钮是红色,那么注册数量将增加

这个假设的试验是一个模板,其中号召性用语按钮是红色的,但这不是完整的试验。你不能确定因变量的任何更改是否确实落在对自变量的更改上。因变量变化可能是由另一个独立变量引起的。为了确保产生有效的结果,你还需要通常所说的控制变量。

因此,试验对自变量进行受控变化,测量因变量,然后将结果与对照进行比较。

所以,对于我们的红色按钮假设的例子,试验将包括在已经存在的页面模板(控制组)和具有红色按钮(变量组)的相同页面模板之间划分网站流量,测量注册的用户数,并比较从控制组和变量组注册用户的数量。考虑到每个模板的流量差异,你应该比较转化率(注册用户数除以唯一身份访问者的数量),而不是绝对注册数。

image2

图2:从问题到假设到试验

 

你不可能有无限的资源和时间来测试每一个可能的假设。按照假设优先级进行测试,重点放在根据你的研究和经验,实现的可能性最强的假设。

对假设的测试不是单单回答这个问题。你需要提出多个不同的假设,因为实际的答案可能不明显。因此,你需要对将要运行什么试验有一个计划,你将做的能产生什么积极或消极的结果。花在研究和定义问题(问题和假设)上的时间越多,试验过程越好,价值就越大。

关于这个问题的最后说明:重点关注直接与业务价值或 KPI 相关的问题。运行一些试验是有吸引力的,因为它们很容易或很有趣,但你越遵守试验的规则,你也会从试验周期得到更大的价值。

 

 

在公司建立它

让公司的其他人参与试验。这有助于公司的其他人关注最终用户在做什么或重视什么。通过让整个公司参与到试验过程中,可以全方位地实现数据聚焦的决策,并帮助改善 HiPPO 问题(指领导拍板式决策,河马是指公司薪水最高的一群人)。基于试验结果改变开发优先级成为公认的实践。

让整个公司参与试验的另一个好处是,它有助于克服工作中的自我效应。让你的工作通过测试挑战通常对于人来说是对抗性的,并产生一些抵制或消除。然而,通过让人们创造假设并从开始计划做试验有助于改变对发生的事情的感知和其背后的价值。

 

实施试验

对于如何实施试验,要考虑你不被捆绑到研发发布周期和资源。这提供了必要的灵活性,以便按照产生最佳结果的时间表实施和监测试验。实际上,你希望限制你跟研发优先级和资源的耦合程度。

在实施试验时,记录试验的详细信息(名称,位置,测试内容,变量),开始和结束日期以及试验日志中的最终结果。这有几个目的:

  • 它可以帮助你跟踪发生了什么,
  • 你拥有测试运行的历史记录,结果和对结果采取的操作
  • 它作为公司其他部门的报告工具

第一次做这种记录时可能看起来很麻烦,但随着试验成为一个常规的过程,正在进行和历史试验的数量将迅速增长,使得难以让一切保持顺序。

 

如何实施试验?

有两种基本类型的测试,A/B和多变量测试。A/B测试是1个或多个变量与控制组(通常是当前运行的版本)的比较,用于证明或否定假设。多变量通过比较组合的变化,来证明或反驳假设。

对于假设1的A/B测试就是对当前的行动呼吁按钮和红色的按钮进行测试。多变量测试是测试哪种组合的红色按钮和副本改变反驳或证明假设的测试。多变量测试可以被认为是多个A/B测试同时在同一页面上运行。

在两者之间进行选择取决于:

  • 你的流量
  • 可用于测试的时间
  • 是优化还是要找大的提升

多变量需要更多的时间和流量来产生统计上有效的结果,并且通常最好集中于围绕最大值进行优化。更简单的A/B测试更适合于在流量和时间受限的情况下发现更好的最大值。A/B测试将比多变量测试更快地达到统计学上有效的结果。

 

设计变量

你的变量由你提出的假设驱动。范围越小越具体的假设,能让你在局部最大值附近进行优化的可能性更大。

 

局部最大值问题

局部最大值优化是一个问题,因为你永远不会产生大的改进。相反,在小的改进上也要花费很多努力。类比可能有助于更好地解释。假设有两座山,一座小山,一座大山,你想爬上山顶看平原。如果你的眼睛一直关注在地面,并且你在小山附近,这时候你开始爬山,无论你走多远,你不会得到更高。但是,如果你向上看,你看到了大山,那么你就能爬到更高。

为了避免局部最大值问题,提出差异很大的变量。这可以扩展到完全不同的布局,风格和变量的设计。你试图测试在问题空间上尽可能远的不同的解决方案,试图看到更大的山。

对小的变化进行试验非常非常容易,它很安全并很好说服 HOPPO 。但是,你运行的优化不能超过局部最大值是真正的风险。你可以驱动1或2%的改进,但不会更多。以主页为例,不是测试不同的副本,而是测试完全不同的按钮,副本和样式,这些应该是截然不同的布局。

 

现实生活中的例子

为了提高 PeerIndex 的转化率,我们做了一系列试验。第一组试验的重点是在页面上移动按钮。这在转换率上几乎没有提高。

image3

控制组的着陆页

 

接下来,我们对非常不同的布局进行了试验,结果转化率提高了200%。试验显示,着陆页的原始假设,我们需要对人们解释更多关于 PeerIndex 来让人们转化,被证明是错误的。通过删除大部分信息并保持页面简洁,我们决定让注册更容易。

image4

转化率提升200%

 

实践

自建vs购买

常年问题:自建还是购买?你当然可以让工程师团队创建A/B测试框架,或使用可用的 SaaS 工具。作为产品经理,我倾向于购买,因为它减少了工程团队在前端和后端的投入,因为他们不必维护内部系统。此外,我可以在工程发布计划之外运行测试。

即使使用 SaaS 工具,你也需要得到一些技术上的支持,以集成该工具,并设置你的应用程序,以允许该工具的控制。所需的集成和研发工作量取决于所使用的服务,但通常涉及在网站或应用程序的标题中包含一个 JS 文件。某些工具(例如 Google 网站优化工具,现在是  GA的一部分)需要你标记正在尝试的模板的某些部分,而其他工具则允许你在浏览器中使用所见即所得编辑器。

如果你使用可能不同的动态数据测试完全不同的模板,则需要创建模板,并在网页加载时选择模板。在后台,你可以在控制器中具有模板选择机制。使用 SaaS 工具,我发现最有效的方法是使用 URL 拆分功能,并让应用程序根据 URL 参数选择适当的模板。拆分网址的工作原理是将流量定向到两个或多个不同的网址。不同之处可能是 URL 参数(例如. ?reg_flow = 1),或者可能是完全不同的网址(例如 http://www.example.com/page_1 跟 http://www.example.com/page_2)。

URLS

URL 1 = http://www.example.com/index?test=1

URL 2 = http://www.example.com/index?test=2

 

控制器

……

IF URL_PARAMETER(’index’)== 1 THEN

//do something

ELSE

//do sth else

ENDIF

相同的方法可以用于对不同注册流程和不同类型功能的行为进行试验。实施 URL 分割测试需要技术上的支持,因此最好对计划运行的测试做规划,以便可以修改工程交付安排。

使用 URL 拆分测试的挑战是能够达到正确的目标。如果目标是网页浏览,则很简单。当目标是一个动作,例如成功完成推文,发送电子邮件或提交表单。一些工具可以立即捕获这些操作,或提供一个“自定义”目标方法,你可以设置在成功完成目标时触发。

选一个 SaaS 工具

有多种 SaaS 工具可用,其中3个值得关注的是:

  • Google Website Optimizer
  • VWO
  • Optimizely

上面的这3个工具我都用过,这里有一些快速笔记。

Google网站优化工具

我发现Google网站优化工具对于我正在进行的试验类型功能不足,并且需要对模板进行大量手动标记,才能运行每个单独的测试,并且无法用于测试功能。

Optimizely

Optimizely 包括一个 WYSIWYG 编辑器(不能满足大型网页的需求)。不幸的是,我发现试验结果,编辑器和仪表板周围的导航是混乱的,导致大量的试验重做。

VWO

我最终使用 Visual Website Optimizer 作为我的主要工具进行试验,因为它为我提供了支持试验的工具,我做了一个简单的试验创建过程,显示结果的UI比较清楚和容易浏览。

国内的当然推荐吆喝科技 AppAdhoc A/B Testing,除了以上产品都有的优点之外,最大的优点就是全中文界面啦。

 

测试陷阱

在试验时很容易尝试捷径。不幸的是,如果你不小心,快捷方式可以很容易使结果无效,使得从试验结果得出的结论是有问题的。要确保你遵循科学的方法。

一个常见的快捷方式是不断变更控制组。为了避免试验中的观测误差,需要试验的控制组保持不变。

另一个主要问题是瞬时流量,例如来自 PR , PR 带来的大量瞬时流量,可能不是你的目标流量。因此,你的试验将被瞬时流量的行为所淹没,而不是被目标流量,对瞬时流量优化效果的消失跟它的到来一样快。处理瞬时流量最好是忽略它发生期间的周期,只使用它的任一方的结果。

 

分割是非常重要的

重视细分,因为细分能让你了解和优化不同的用户。在错误的市场中获得30%的转化率没有意义,这掩盖了你在目标市场中只有5%的转化率的事实。

例如,细分可以提供哪些功能,我已经根据国家/地区的分类,对转化进行了测试。这表明我们的目标市场的转化率低于整体转化率,因为其他市场的转化率高得多,掩盖了较低的转化率。我们现在正在规划测试,目的在于使目标市场的转化率更高。如果分割还没有完成,我们永远不会知道这一点。

分段可以做出各种功能,例如:

  • 浏览器
  • 国家
  • URL 参数( utm 代码)
  • 日期
  • 星期
  • 访客类型(新访客与回访者)
  • 搜索关键字
  • 移动设备
  • 操作系统

 

运行和监控试验

你有你的测试计划,你已经实施了测试,现在试验正在运行。

 

试验需要时间

运行测试需要时间,即使你有很好的流量。主要原因是要实现统计有效性。为了实现统计有效的测试,测试需要运行足够长的时间,以便有足够多的人参与试验。

影响结果统计有效性的另一个行为是流量。即使你有足够的流量在一天内就能获得有效的结果,但你的流量在那一天和其他时候一样吗?是否受到营销推广或公关活动的影响?在选择运行测试的时间时,必须考虑这些因素。我更喜欢运行一个测试至少一周,以便网站的试验运行在一周的不同天和一天的不同时间的不同类型的流量。 PR 或营销推广可能需要测试运行更长时间,留足够的时间让流量恢复正常。

当流量低时,你必须再次运行试验,以确保你的结果有效。以下是一些在低流量下运行试验的小技巧。

 

报告

报告只有一个目的,帮你在大量的试验或产品/开发优先级的变化中确定下一步行动。如果没有采取行动,报告和试验就被浪费了,要根据需要从报告中作出结论并采取行动。

报告阶段是你得到“为什么”的地方。为什么我得到 x 而不是 y ?这些问题将导致新的试验,用于继续循环,试验的过程。它不应该停止一个试验或一组试验。这也是检查异常结果的点。异常结果是既不证明也不反驳假设,而是一个垂直于被测试的假设,那么超出期望的应该集中在回答为什么。

这方面的一个例子是我们在 PeerIndex 上对国家/地区分类着陆页进行的测试。假设是不同的位置之间会有差异,试验证实确实有。异常结果是一个国家的结果是其余的50%。该国与其他国家之间的差异没有明显的理由,事实上,它甚至不是一个目标市场。

 

负面结果的重要性

测试的关键结果是学习。无论积极还是负面的结果都是无关紧要的,真正重要的是你从测试中学到的东西。负面结果通常比积极结果更重要。负面的结果告诉你,你对用户的基本了解是错的。结果是,你可以通过继续测试发现用户想要什么。

 

形成闭环

你已经设计了试验,实施它,并运行了它,现在报告中已经有了结果。下一步是问自己两个问题:

  • 这些结果对开发优先级意味着什么?以及
  • 为什么我得到这些结果?

第一个问题允许你回顾待开发列表,并根据从试验获得的验证结果调整优先级。这样,试验中发现的关键指标的改进可以是永久的,并能尽快部署。例如,如果你的试验产生的转化率提高了100%,那么你希望尽快实现这一点。

通过询问“为什么我得到这些结果?”(或相反,“为什么我没有得到我期望的结果?”),你提出了可以回答它的假设,然后设计试验来测试。例如,假设你进行了一项试验,表明来自不同国家的访客有不同的转化率,目标市场国家的转化率较低。问题是“为什么目标市场的转化率低?”,你提出了假设来测试。

基于结果(更改产品优先级,新试验)采取的操作应记录在试验日志中。这提供了一种跟踪试验和最终结果的方法。它还提供了一个方便的轨迹,以跟踪你如何到达任何特定的试验。

你不可能用一个试验回答任何问题。相反,你更有可能通过重复试验迭代到答案。正在进行的试验循环是你如何让你更迅速地发展产品以满足 KPI 和目标。

 

总结

最终,试验的目标是实现业务或产品目标。记住这一点,才能做好试验。然而,忽略了这一点,你运行的短期优化的真正风险就是无法建立一个强大的产品或业务。不是为了测试运行测试或在框架清单中勾选一个框,所有的试验必须基于实现既定的目标。

你需要能够对“这个试验怎么才能符合我们试图实现的目标?”,应该有一个明确的答案,例如,“我们的目标是增加收入,这需要更多用户为产品付费。我们想知道主页上的 CTA 是否能更有效地让用户注册。其中一个测试是强化 CTA 按钮。这个测试是其中之一 ——评估不同颜色的按钮。”

试验将科学过程带入产品演进,目的是更快地实现目标。即使一开始你只是在一个区域进行试验(比如落地页转化),随着时间变化,你会在产品的不同部分运行大量的试验。记住这个过程,并将每个试验结合成一个目标,它将更容易跟踪发生了什么,并确保你的试验正在朝着目标演进你的产品。

 

7256 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。