A/B测试的正确姿势是什么?极诣大揭秘

你造吗?谷歌在六月份进行了一项很低调的A/B测试,测试的内容是搜索结果的频道标签文字究竟该用红的还是蓝的。虽说“自古红蓝多CP”可谷歌却是奔着两者取其一去的。在上周测试结果终于有了定论。谷歌把文字换成了蓝色 23333。下图为前后比较。

蓝色导航文字最终胜出

蓝色导航文字最终胜出

互联网一哥都这样严谨而细致地优化自己的产品,我们这些战五渣还有什么理由回避这个普世良方呢?极诣在以往的文章中曾经问过大家,跟着感觉走,还是跟着数据走?相信极诣的读者都会跟着数据走的。那么本周极诣将再向你介绍A/B测试的要点和技巧。

你还造吗?极诣推出公众微信号了!搜索“极诣数字营销”或者微信号“digitalmaxketing”即可找到我们。

A/B测试,测什么?

一般来说,凡是和转化相关的我们都可以进行A/B测试。我们可以比较两个广告哪个点击率更高,可以比较哪个着陆页面注册率更高,还可以比较哪个邮件主题的邮件打开率更高。总之我们在测试之前会有一个明确的目标,这个目标是找到对一某个转化环节的优化机会。

从1 v.s. 1开始

我们说的A/B测试,即A/B Test也叫Split Test。它是通过比较两个版本的不同使用结果判断优劣从而进行改进的科学方法。最常见的就是引进一个新版本,然后将部分流量导入这个新版本。在两者同时进行的过程中收集数据,当数据达到确信度后判断孰优孰劣。优胜劣汰。

我们把原来的版本叫Original或者Controlled,而把新引进的版本叫做Experimental或者Variant。前者为A,后者为B。我们经常用两者之间的比较而不常用三者之间的比较是因为版本越少测试用例就越充足,可以更快得出结果。这和计算机算法里的两分查找法也很类似。当然在样本充足的情况下可以使用两个以上版本。

A/B测试

A/B测试

保守还是激进?

凡是变动,必然有风险。当你满怀期待地发布新版本时,说不定也会是你的滑铁卢。你可以选择把你所有的流量一分为二,也可以选择拿出随机的十分之一流量去尝试新版本。两者的优点缺点同样明显。前者可以更快得出结果,而后者更加安全。我们选择A/B测试的范围要在可控可承受损失的安全边际内。

由趋势到细节

在我们做最初几个测试时,我们需要这个版本具有明显变化。拿着陆页来讲我们对页面的布局可以有完全不一样的选择。如果目前我们有的是一个马上注册按钮并且用户点击后开始填资料,在新版本中我们可以直接把注册表单放到着陆页。等这个测试结果出来了,我们再考虑在页面上测试按钮形状,文字文案这些细节的东西。因为细节的东西很多,但是对转化率的影响并没有整体性的变化带来的影响那样强烈。还是举着陆页的例子,由影响强到弱我们排出这样一个测试的优先级(仅列出部分项仅供参考):

  1. 页面颜色和按钮颜色
  2. 页面布局(第一屏布局,宽度,长度,内容重心)
  3. Call-to-Action位置
  4. 主照片选择
  5. 是否放置视频
  6. 页面标题文案
  7. 按钮文案

经过几轮测试一个较优的方案就水落石出了。

测试用例的一致性

我们在做A/B测试的时候需要特别关注测试用例的一致性。倘若我们对两个版本使用不同成分的测试源,得出的结果往往不能让人信服。譬如,原版本男性访客居多,新版本女性访客居多;或又原版本在工作日,新版本在周末测。这南橘北枳的道理很容易理解。因此我们在进行实验的时候最好两个版本随机进行。换句话说同样的时间,同样的来源,不同的版本。

在实际操作中,我们可以使用一些主流的A/B测试工具。当前最流行的的工具是Google Analytics,Visual Website Optimizer还有Optimizely。笔者用过前两者,他们会通过一段JavaScript代码来分派访问流量,由于支持本地库加载,我们不用太担心国外服务网速的影响。

测试多个(非)相关变量

我们在进行A/B测试实验的过程中为了节省时间可以同时进行两组实验。不过需要注意的是这两者必须为独立事件。举个极端的例子,如测试英文着陆页的转化率的同时你可以测试中文着陆页的转化率,由于你的两组着陆页来自不同的广告源,实验结果均为有效。

如果你要测的是同一页面的标题和标题文字颜色,这不适合仅用两个版本来测试。你需要测试:

标题A红色(原版本),标题B红色,标题A蓝色,标题B蓝色。

这样2×2的组合会比一般的实验稍复杂。

测试需要多久?

最后我们来回答这样一个问题:A/B测试要进行多久时间才能找到可靠的结果?如果我在新版本上投入了100个访问转化了10个,是不是转化率就是10%,比我原来的5%的转化率高许多呢?答案是我们需要一个最小的样本数。因为之后的200个访问可能一个转化都没有。我们如果有一定的概率论常识的话会发现一个实验对象的实际转化率通常是这样的:

确信概率示意图

确信概率示意图

图中实验对象的转化率会落在蓝色或者红色的“小山峰”里,曲线越高说明落在此处的概率越大。红色和蓝色的区别在于对实验对象转化率的确信程度。实验次数越多我们对结果就更有把握,因此这个小山峰就会越“瘦”。如果我们那个“小山峰”参照那根左面的参照线有95%都在参照线右边,那么我们判定转化率以某种程度大于参照转化率是可信事件。为了能让95%都在参照线右边,也就是左边阴影面积要小于5%,我们需要让“小山峰”更瘦,需要让样本数量达到一定量。这样我们就理解了为什么我们需要一个最小样本数量,也理解了什么时候我们的A/B测试可以结束了。

关于最小样本数的计算,极诣介绍一个最小样本计算器。你可以填入你的参照转化率和期望的优化目标,它会自动算出结果。不过大多数的含有A/B测试概念的软件,比如我们刚才提到的三种,甚至包括Google AdWords和百度推广在进行点击率“优选”的时候都是采用这个方法。

总结

A/B测试是优化转化率的最简单,最有效的方法。如何科学地进行A/B测试是每个营销人员和产品设计人员的必修课。我们要把“我喜欢”和“我想”还有“那样好看/美观/大气”的思维模式改成“数据证明”,“那样转化率更高”的思维模式。对于一些有时效性的东西,比如情人节广告每年都会不同。你需要提前进行测试,以免造成刻舟求剑的困境。