小学生都能看懂的A/B测试原理

A/B测试背后的统计原理是什么?

A/B测试背后的统计原理是什么?

题记:其实这篇文章酝酿了挺久的,苦于自己不是统计专业科班出身一直没能落笔。其间曾拜托正在庆应义塾大学院攻读博士的周梦媛准博士写一篇入门文章。文章我是看懂了,但是要让更多的人理解,我觉得还是有许多距离。说明A/B测试的统计学原理其实不难,难就难在如何说得通俗易懂。

2015年笔者曾撰文《A/B测试的正确姿势是什么》,此文虽然介绍了A/B测试的一些注意点,却没有对一些关键的概念如95%的可信度做出解释,甚至草图还有错误。好在我们现在有一些非常便捷的工具可以帮我们图形化模拟A/B测试的具体情况,这更加方便我们来解说。本文在多处会使用一个叫A/B-Test Calculator,地址在这里abtestguide.com/calc/

转化率分布

数字营销的基础是转化率,它多数时候是一个百分百,如CTR,CVR,Open Rate;也有用绝对数表示的,如ROAS。我们知道它们总是被转化数除以样本数。假设有5,000名访客,被转化了100名,那么转化率就是100/5,000=2%。这是我们做“一次”实验得出的结果。下一届5,000名访客可能不行了,只有80名转化;也可能翻倍了,转化了200名。在我们还没开始第二次实验之前,我们只能假定,我们这套页面,这些文案,如果它存在一个真实转化率的话,总在2%周围。这个假设很重要,因为它不是随机的。因为如果是随机的话,出现2%的转化率,20%的转化率和80%的转化率的各自几率可能一样大。那我们没什么好研究了,是不是?

决策并不能用统计来替代

决策并不能用统计来替代

所谓“周围”,就是平均值为2%。如果我们画一个图,横轴是转化率(最小值为0%最大值为100%),纵轴是该转化率出现的几率,那就会出现一个“坟头”。小学生不需要知道这怎么来的,只要记住这是T分布就行了。

平均值为2%的转化率分布

平均值为2%的转化率分布

那条95%的线是不是很熟悉,它代表在该线左边的面积占总面积的95%。如果这条线落在3%,那说明该转化率小于3%的几率是95%。

为什么是95%不是94%或者96%呢?这不是什么科学,人规定的。就像60分及格40分补考,统计学家们就是喜欢95%,并且认为它具有大概率的“美感”。所以沪牌中标(4%)在他们眼里是小概率发生的事。(“▔□▔)。当然,我们可以更加严格一点,弄个99%;或者松一点放个90%。这看个人喜好和精度要求了。
  • 我们之前的文章提到过,相同转化率前提下,参加的访客越多,这“坟头”越高,也就是说我们对真实转化率更加确信。
  • 还有一点就是不管这“坟头”有多尖多高,它的面积始终是代表100%的真实转化率概率,因此所有的“坟头”的面积都是一样的。

记住这两点,下面就好说了。总之“坟头”面积恒定,只有高瘦和矮胖之分。

转化率虽然一样,但是样本越多,越尖

转化率虽然一样,但是样本越多,越尖

比较转化率 – 统计功效

当我们做A/B测试的时候,说是比较两个转化率值的大小择优录用,实际上是比较两个转化率分布的大小,这要复杂得多。换句话说,你是拿两个“坟头”形状位置在比较。比如下面这样,左边是A:100/5,000,右边是B:130/5,000。

同样5,000个样本,2%转化率和2.6%转化率比较

同样5,000个样本,2%转化率和2.6%转化率比较

看起来右边那个“坟头”的转化率比较左边要好。左边的95%线把右边那坟头劈成两部分,左边是白色,右边是绿色。绿色的那块中的B转化率一定大于95%的A转化率。

那么问题来了,B的真实转化率有多少机会大于95%的A转化率呢?答案就是绿色部分的面积占整个“坟头”的百分比。统计专家们把这个值叫做Power,也就是“势”或者“统计功效”。绿色面积百分比越大,B真实转化率好过95%A转化率的几率就越高。在上面这个例子里,绿色面积占B总面积88.86%,即Power=88.86%,88.86%的可能B的真实转化率会大于95%的A的真实转化率。换句话说,你要是无动于衷留着A犯傻的概率是11.14%。

细心的你一定发现,只要你移动这条95%线到99%,相应的绿色部分就会变少,那么能打败99%真实转化率A的真实转化率B就会变少。Power值会随着你的严苛程度而改变的!

细心的你一定还发现,即使B的真实转化率出现在了95%线的左边,它一样有机会打败真实的A转化率。所以我们下面再讲一个概念。

比较转化率 – P值

我们上面说了,即便绿色面积占比不怎么高,或许还不到90%,我们一样可以说B的真实转化率有95%的几率会比A的真实转化率好。因为我们一旦确定了两个“坟头”的形状位置,便可以通过积分来计算平均分布的两个点A和B,B>A的概率。小学生不需要懂积分,只要懂这是一个固定值就行了,因为这里没什么变量,除了确定两“坟头”形状位置的4个输入参数100,5,000,130,5,000。统计学者们把这个固定值称作P值,我把它叫做屁值。在学术上P值的应用和理解还有诸多分歧。

统计:能让不同专家从同一组数据中获得不同结论的唯一科学

统计:能让不同专家从同一组数据中获得不同结论的唯一科学

P值不同于Power,它不会因为你选了90%,95%或者99%而改变,对每个比较它都是一个固定值。如果这个固定值小于0.05,那么就意味着B的真实转化率小于A的真实转化率的概率就小于5%。这就是一般在数字营销优化中我们选取95%可信度的情况。P值代表了B和A的差异是否显著,这种显著程度是否和你的Benchmark相比有意义,这才是P值的作用。

所以A/B测试的正确姿势到底是什么?

我们研究A/B测试的原理是为了在收入风险较小的情况下进行测试。

  1. 首先,你必须要了解你要测的这玩意是不是非随机。这个要做大量的A/A测试,如果你每届都做大样本测试而结果迥然不同,那么你一定要分析原因去再次剔除影响因素了。比如季节性变化,再比如不同的访客属性。所谓GIGO(Garbage in, Garbage out),你需要对你的样本质量有所考虑。A/A测试的风险极小,你值得拥有。
  2. 如果测试的一开始B的平均转化率比A的平均转化率还糟糕,那么你就要看P值的趋势了。如果P值的趋势变小,那么说明这可能是个坑了。你要尽早结束测试。因为在现实商业中,这是损失收入的风险。
  3. 反之如果测试的一开始B的平均转化率比A的平均转化率高,但是P值在持续上升,那么这或许是个越测越乱的结局,非常有可能你是在浪费时间。不妨换一个C来测试了,因为B很有可能和A没什么区别。

那么,话说回来,小学生能懂吗?