Alpha、Beta,古希腊字母与统计学

大约3000年前,古希腊人已经有了令人瞩目的创新,诸如弹射器,室内管道。当然,还有希腊字母,实际上现代字母里的“A”和“B”就是起源于希腊字母阿尔法(α)和贝塔(β)。
α 和 β 已经成为常用的统计术语,对于假设测试尤其如此,例如可用于转化率优化的A/B测试
那么A/B测试和古希腊字母之间可能存在关联吗?
尽管 α 和 β 在A/B测试和其他应用中非常重要,但它们却经常被忽视和误解。这不是一个好现象,因为A/B测试里的 α 和 β 不止会决定测试结果的准确性和可靠性。
你可以在网上找到很多有用的A/B测试和样本大小计算器,界面类似于这样:
ab-test-calculator a-b-significance-test
在这些界面有些用户不必选择 α 或 β ,建议或“默认设置”里已经对 α 和 β 做了设定。我们会看到,这些值在定义测试以及对结果做决策方面发挥了重要作用,因此我们应该始终知道正在使用的 α 和 β 值。
鉴于 α 和 β 在A/B测试中的巨大作用和重要性,花时间来了解它们的绝对是有价值的,就像古希腊哲学家苏格拉底所说:“唯一真正的智慧是知道你什么都不知道。”
1.从 Greek 到 Geek
像许多古老的想法, α 和 β 的起源跟人类最基本的需求密切相关:食品和住房。
长话短说,古希腊在公元前800年开始沿用古腓尼基人的字母,腓尼基字母将一个名词跟字母表中的每个字母相关联。例如,用字母 α 表示牛,用字母 β 表示 房子, 大致来说,字母顺序是基于它们对于生存的相对重要性分配的。
greek_alphabet
回到2016年,字母 α 和 β 在数学领域就有超过30个定义,我们都听说过 α 粒子, β 测试 和其他类似的术语。
幸运的是,统计学世界里 α 和 β 的定义更直接并有一致性,因为这是我们的兴趣所在。
2.什么是 α ?
就像阿尔法狗作为领头羊穿越冰冻苔原一样, α 的概念在统计学世界中是一个非常重要的概念,因为它涉及到影响A/B测试的其它几个关键概念以及以后结果的准确性。换句话说,如果你了解 α ,你可以更容易地理解相关的术语,如:
  • p-value
  • 统计显著
  • 置信水平
由于 α 在数学上和这三个术语相关,所以不幸的是它们之间容易混淆。这意味着这四个术语有时会被错误地互换使用,使得情况更加发杂。
也许解决这种混淆的最简单方法是并列比较这些不同的概念是如何相互关联的。
类型 定义 跟 α 的关系
p-value 当A / B测试某论断时,这是A和B实际上相等的计算概率(你希望这个值是尽可能低的) α 是我们测量 p-value 对应的阈值
统计显著 用于描述结果的词,是表示 A 和 B 之间存在差异的强有力证据 p-value 必须小于 α ,才能声明结果显着
置信水平 预期测试结果正确的百分比(通常为95%) 置信水平= 1- α
“统计显著”可能是这些概念里最难理解的,因为这个词本身有时就有误导性。如果你想对此了解更多,可以在这篇文章里细度这个概念:一篇文章读懂A/B测试背后的统计学原理
在A/B测试中,你在设置试验时选择的 α 值为:
原假设本来正确,但按检验规则却拒绝了原假设,这件事发生的概率记为 α 。
比如你选择的 α 值是0.05(这是典型的 α 值),这意味着你接受有5%的可能会放弃掉网站转化率的提升。因为它是一个概率,范围可以从0-1,但显然较低的阈值会得出更可靠的测试结果。
5%是你能容忍的概率吗?在选择 α 值之前,请务必考虑你真正想要(或需要)的确定性。
这也被称为第一类错误,简称弃真错误。记住第一类错误的简单方法是 α (第一个字母)跟第一类错误(第一个数字)相关。
正确使用 α 会成为A/B测试成功的可靠因素。
3.什么是 β ?
当听到 “β” 一词时,我想到的第一个事通常是软件 β 测试。为什么叫 β 测试?让我们回到字母的历史层次排序,软件行业里 α 测试指软件开发商在内部对新软件做的初始测试,而 β 测试是通过发布软件选择外部用户之后进行试运行的测试。
在统计世界, β 通常在 α 之后,因为跟 α 相关的统计显著,置信度和 p-value 这几个概念被大多数人所关注。在我看来,给A/B测试中,设置正确的 β 值跟设置正确的 α 值一样重要。
那么什么是 β ?在很多方面, β 由 α 推出或跟 α 相反,意思是:
原假设本来不正确,但按检验规则却接受了原假设,其发生的概率记为 β 。
这种特定的错误也被称为第二类错误,简称取伪错误。记住第二类错误很简单, β (第二个字母)跟第二类错误(第二个数字)相关。
α 跟置信水平之间的关系与 β 跟统计功效之间的关系相同,因为:
Power = 1 – β
即使“ Power ”一词让人联想到宙斯从奥林匹斯山上抛下闪电的形象,所有这一切意味着对第二类错误的强烈反对。 Power 跟样本大小直接相关,因此最好的方式就是增加采样。
如果你想确保不会因为统计误差错过检测到巨大的增强,只需要把初始的 β 值设置低一点,这反过来能提高你的统计功效。
我发现大多数在线样本大小计算器的默认 β 指示 0.20,这意味着你仍然有20%的可能性会出错。如果你想对此更确定,一定要选择一个合适的 β 值,而不是选默认值。当然,代价是你需要更大的样本量来获得额外的统计功效,就像任何宏伟建筑都需要从坚实的地基开始。
如果你使用的工具没有给你选择 β 值的机会,软件会自动把值预设为0.20,当你对 β 的重要性以及它如何影响你的决策有更多的了解时,你肯定想知道你的测试软件有什么价值,并且有能力自己控制这个变量。
彩蛋:理解 α 、 β 和 power 的有趣案例
有一个例子,可以很好的诠释统计的三个基本概念,推论统计中的第一类错误(α error),第二类错误(β error)和统计效力(power) 。
N年过去了,统治地球的男人们活腻味了 
于是挑起战争 
他们对小打小闹已经失去了兴趣 
新世纪的战争,自然得有新气息 
他们商讨一番,决定相互灭绝 
使用的新鲜武器是: 
  • 自动判别,如果胸小于 A 罩杯,则杀无赦 
  • 如果等于或大于 A 罩杯,则放过 
  • 这个武器本意是区分男性和女性 
  • 杀死所有男性,放过所有女性 
硝烟过后,大家可以想象得到结果 
有些可怜的 mm 因为胸太小被误杀,这就是武器的判别程序犯的一类错误, 
本属于女性这个群体,却被错误的判断为不属于。 
有些胸肌发达的 gg 因为胸很大而活下来,这就是武器的判别程序犯的二类错误, 
本不属于女性这个群体,却被误判为属于。 
而所有被杀害的男性,则是该判别程序的效力(power,i.e. 1-β) 
4.It’s All Greek to Me(我对此一窍不通)
很多年前,我坐在同事旁边,盯着一本书上这样的一个方程,想知道这些符号是什么意思,或者这个方程是否正确的应用于我们的试验。
n-equation
“ α 是什么意思?它是标准差吗?也许 β 就是 1-α ?”
当时一直在做A/B测试,公式中的另一个希腊字母的存在马上说明我在错误的轨道上:Sigma(σ)。
在统计学里, σ 代表标准差,这是你的数据与平均值或平均值的偏离程度的度量,它是方差的平方根。
标准差是统计分析中最有用和重要的指标之一,不幸的是,它(通常)并不适用于网站测试世界。
high-low-variance
为什么?
为了计算标准差,你需要使用所谓的可变数据。一个例子是测量工厂里汽车零部件的大小,一旦你已经测量了一大组零件,你会知道平均大小,并由平均值算出标准差。这个值会告诉你,过程是否可控,或者根据规模和标准差的趋势判断你得到废品的风险。
我们看A/B测试所产生的数据,通常是看百分比,比如用户购买率,点击率,注册率等。所以没有平均值,并且每个用户之间没有偏差,只是一个百分比,这被称为属性数据。就像抛一枚硬币100次,最后剩下的只是要翻转的数字,正面的次数,反面的次数,没有平均值或标准差的计算。
但是,A/B测试确实有很多变化,这有时跟方差混淆,但并不是一回事。
诸如用户人口统计,设备类型和日常转化率模式的差异,都是在A/B测试中观察到变化的例子。从这些变化到方差,你需要另一层数据,把数字分配任何可以改变的东西,然后测量数据随时间推移所观察到的差异。这可能在更复杂形式的测试中被使用,但通常不是一个基本的A/B测试。
结论
正如古希腊人,埃及人和腓尼基人的理解,一个符号可以是更通用的,有意义的。不幸的是,任何简单的字母或数字之间的混淆将会永远存在。一个古老字符的存在有很重要的暗示,深度和历史意义。
大约在 α 和 β 正式成为第一个希腊字母的同一时间,公元前776年,第一届奥运会在希腊奥林匹亚举行。过去几千年以来,这些字母代表了多个概念和想法,无论是在数学还是其它领域。
在现代奥运重生的1896年,字母已经代表了重要的统计概念,现在,它们在网站测试的世界也已经有了更多的意义和实用性。
不要被 α , β , σ 这些统计术语的出现吓到,知道它们的真正意义你会意识到它们没那么复杂。
只需要知道 α 量化了拒绝一个真实假设的可能性, β 量化了接受一个错误假设的可能性,我们可以利用这些概念,来更成功的设计和优化我们的A/B测试
11380 Views
即刻实践文章理论 A/B测试 灰度发布 产品优化 免费申请
Please wait...

订阅我们

对于每位订阅读者,每两周,吆喝科技会为您发送4篇精选文章,可能是最新的A/B测试实践,也会是你所期待的增长干货。