微博霸气 | 解决了一批开发的bug和开发bug的人

『吆喝文摘』在产品的微观优化和宏观构想之间需要一个中观视角实现平衡与协调。任何一个个体和团队都不应该在一家公司把持话语权,但是数据试验可以——尊重试验数据和试验文化,就是尊重产品本身。

bug

高收入,往往意味着高压力,程序员群体便是如此。当全世界都在羡慕西二旗月入5W+的程序员时,或许他们也会在夜半时分苦苦唱起:

15088006900008edb6dffa3d17d55b270468b58b57f2a1863

你永远不懂我伤悲,白天不懂夜的黑

不久前,新浪微博的开发小哥哥竟然面临“生命危险”——在iOS版微博国际版v2.8.0的更新日志显示,本次更新的内容有两项:一是适配iPhone X,二是解决了一些开发的Bug和开发Bug的人……

%e8%a7%a3%e5%86%b3%e4%ba%86%e5%bc%80%e5%8f%91%e7%9a%84bug

这和隔壁家的“修复了闪退的Bug,还杀了一个程序员祭天”如出一辙!这种表述往往会成为互联网圈的佳话。因此,在虾米音乐“穷逼VIP”事件中,网友们也是自顾自的调侃,并没有谁真的生气——毕竟穷逼是一种气质,与买不买VIP没有太大关系。

不过,吆喝君在仔细分析整个事件的始末后,发现了一些问题:事件的起因是产品部门摇摆不定的改版需求让开发们三天两头推倒重来,他们只便在日志中表达自己的积怨(暂时不探讨这个行为本身的问题),这种现象反映出一个深刻的问题:产品、运营、技术三者之间,互相无法说服,最终产品方向就像是“薛定谔的猫”,谁对谁错,全靠天意~

%e4%bb%80%e4%b9%88%e5%8f%ab%e6%b0%b4

哎,这都是命~

在吆喝君组织的“互联网时代的超级英雄”活动中,墨刀增长负责人杨过过为大家解释了不同商业模式的公司的话语权的归属问题:偏向技术的公司,技术人员掌握话语权;产品优先的公司,产品经理拥有较高话语权,重运营的公司,运营人也能扬眉吐气,这些都是正常现象。只是头顶着光环的科技互联网公司,却依靠着“人治”和“宫斗”来维持着产品迭代,这应该是一种风格呢,还是一种退步呢?

%e5%b9%bb%e7%81%af%e7%89%8715

不同商业模式下部门间的话语权差异

数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来——全球知名管理咨询公司麦肯锡(最早提出“大数据”概念)

在这样一个时代,对待数据的挖掘和运用,不应该只停留在投资层面,而是思路和模式上的转变。解决产品、运营和技术之间深层次矛盾的唯一途径是数据,数据会说明一切。然而,数据作为标准,仅仅解决了问题的前半部分,如何让数据成为先验而非“马后炮”呢?

『答案是A/B测试』

互联网行业著名的定律数不胜数,为什么答案是A/B测试?比起那些定律,A/B 测试『资历』可能更老——它并不是互联网时代的原生产物。A/B 测试来自于医疗行业,属于RCT(Randomized Controlled Trial),是一种随机控制实验。此前已经被药监局、药物管理或者医疗管理单位广泛应用,他们以A/B测试的实验结果为依据,是行业内最高标准的测试以及验证方案。

ab-testing

或许,您对于“什么是RCT、为何医疗行业会采用A/B测试”并不感冒,那我们不妨换一个更令人信服的视角来解释A/B测试——运用统计学理论证明,A/B测试为何比定理、经验和其他工具更科学、高效和稳定。

这次我们选取的是 Appadhoc A/B Testing 云平台提供的相关数据,我们知道A/B测试本质上是一种对比试验,工作原理就是统计对照版本和测试版本两个样本的数据(样本数量,样本平均数和方差等),通过以正态分布为基础的统计学公式进行计算,衡量测试版本的总体参数(均值)是否比对照版本的总体参数有确定性的提升。

从A/B测试的原理可知,A/B 测试是一种假设检验(显著性检验)。在试验过程中存在2个假设——原假设和备择假设。原假设是我们希望通过试验结果推翻的假设,在这里您可以简化理解为原版本;备择假设是我们希望通过试验结果验证的假设,在这里您可以简化理解为试验版本。

原假设和备择假设是一个完备事件组,而且相互对立。在一项假设检验中,原假设和备择假设必有一个成立,而且如果其中一个不成立则必须无条件接受另一个。在这里您需要理解简单理解为原版本和试验版本,除需要优化的指标外,其余条件完全相同,统计上依据小概率思想。

试验,从不回避“错误”,也可以说我们在“试错”。可为了得到科学的试验结果,我们则需要尽可能减少这些可能导致我们队试验结果做出误判的概率。这就会涉及两类错误:弃真错误和取伪错误。

弃真错误就是原假设为真时拒绝了原假设的事件,我们容许此类事件发生的概率(记为 α )被称为试验的置信水平,而1- α则被称为试验的置信度。然而,置信水平是人为设定的数值需要通过计算进行验证,而计算所得数值记为p-value。只有当如果两个版本无差异,p 才能作为试验数据的概率。

pvalue

阴影部分即为p值

由此可以推导出:当 p ≤α 时,则意味着测试得到了统计显著的结果, ;当 p 越小时,越能支持小概率事件不会发生的判断,从而推翻原假设、接受备择假设。

p 值核算涉及样本均值,样本数量,和标准差。

而取伪错误,就是原假设为假时接受了原假设,直观但不严谨的理解是,分明原版本在核心指标上落后于测试版本却依然坚持原版本,这个错误的概率在统计学角度也称为取伪错误,记为 β ,这个概率可以相对大一些,业界大约定俗成的一个标准就是10%和20%的概率。

和显著性水平一样,为了有效避免取伪错误的发生,我们需要通核算 β 从而计算出另一个参数来给我们参考——统计功效,和核算置信区间的置信度类似,它是的思路是 1-β 来得出 (统计功效  power = 1 – β )

统计功效:是指版本差异(效果)为某个指定值时,通过显著性检验能正确地把差异检验出来的概率。简而言之,就是我们能够正确拒绝原假设获得统计显著性结果(95%置信区间中数据)的概率。

统计功效的核算涉及样本数量,方差,α 、以及最小变化度或者置信区间下限。

由此可见,当弃真错误控制在5%以内,而取伪错误控制在10%-20%左右,试验数据才具备参考价值。换句话说,我们在做A/B测试时,试验结果达到95%的置信度,以及80%-90%的统计功效时,它对我们来说才是有意义、可以作为决策参考的。

%e5%8a%a8%e6%89%8b%e5%81%9a%e6%89%8d%e7%9f%a5%e9%81%93%e8%87%aa%e5%b7%b1%e6%9c%89%e5%a4%9a%e7%89%9b%e9%80%bc

只要方法得当没有什么不可能

A/B 测试并不是简单粗暴的将多个测试版本同时并行草草测试,而是建立在产品团队清晰的产品思路和明确的优化需求上,建立在A/B测试平台不断完善核心算法的基础上,是建立在严谨逻辑和统计原理基础上的科学试验。如果将每次产品迭代都看成一次大型考试,那么A/B测试就是帮你赌中题目的老师,在其他同学都在“三短一长选一长,但凡不会就蒙C”的过程中浪费机会时,你却总是能提前给目标用户交上一份满意的答卷。拒绝A/B测试,实际上是在拒绝实现成功最正确的道路。

appadhoc

吆喝总结:产品不行,你需要中观视角

吆喝君经常说:一个顶级的产品经理也只能跑赢一半的A/B测试。这并不是否认经验、魄力和真知灼见在产品发展中的巨大作用,在产品的微观优化和宏观构想之间需要一个中观视角实现平衡与协调——A/B 测试就是这样一个中观工具,试验便是一种适用于互联网产品优化的中观视角。任何一个个体和团队都不应该在一家公司把持话语权,但是试验数据可以——尊重试验数据和试验文化,就是尊重产品本身。

2415 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。