网站分析中那些被“错爱”的访问来源

两年多前,笔者曾经在百度站长平台发布过一篇名为《数据分析:如何追踪访客初始来源》(极诣原文)的文章广受转载。对我们研究用户行为来说这种方法可以“原汁原味”地保留我们和受众的初次接触点。访问来源在Google Analytics中默认由Source和Medium两个维度所构成。早在Google Analytics还是Urchin时代时,各位如雷贯耳的utm_source和utm_medium就广泛应用,而utm即Urchin Tracking Module。Urchin被谷歌收购十多年后的今天,它们依然活跃在网站分析界。

访问来源是转化归因模型的基本输入

当今的网站分析自然比那个时代已经有了次元级的提升,各种归因的应用已是数字分析中的modus operandi(惯用手法)。但是要说Last Click已死,未免为时过早,起码GA中的那些默认的报表还大量地默认为Last Click模型,包括各种e-Commerce报表。梳理好各个访问来源成为了我们日常管理网站分析的重要内容。我们且看下面两个场景,思考一下对访问来源而言,它们都意味着什么?

场景一:支付网关

本该属于该访问来源的转化被劫持

本该属于该访问来源的转化被劫持

当用户通过百度推广到你的网站后,选择了心仪的商品。结账时用户选择了“某宝”作为支付方式。页面带用户到了“某宝”的支付页面,成功支付后用户被自动带回你的网站,订单显示支付完成。

场景二:第三方登录(或跨域名登录)

用户通过EDM到你的网站着陆页,你的网站提供了各种第三方便捷登录/注册方式。用户选择QQ登录后被带到QQ登录页面,授权成功后被自动带回你的网站。成功登录!

被“错爱”的访问来源

上述两种场景都是我们司空见惯的场景,细心的你一定会发现其中蹊跷。是的,用户被带离你的网站后被再次带回,其中再次产生了一次会话。而这次会话便成为了关键的最后一次访问来源。如果不加处理,我们会看到所有通过“某宝”支付的功劳都被算到了“推介”来的“某宝”上(如下图所示),而真实带来这次访问的百度推广的功劳被直接抹杀。同理,你会发现第二种场景里的跳出率高的离谱,而QQ来的用户的访问时长拔群。

真正的访问来源丢失的情况

真正的访问来源丢失的情况

这样的问题很普遍,我们把它叫做“Referral Spam”。它虽非恶意,但的确污染了我们的数据,为我们的数据分析造成了麻烦。

暂时离站访问来源问题的解决方法

为了避免暂时离站访问给我们分析带来的干扰,我们必须处理好这些访问来源。以往我们使用Filter来纯屏蔽的方法在这里并不适用,那样做会完全屏蔽用户在新会话中的行为。利用初始访问来源跟踪的方法也有缺陷,因为用户转化可能并非发生在首次访问。Google Analytics为我们提供了两种方法:

Referral Exclusion(引荐来源排除)

第一种是Referral Exclusion。这种方法是GA升级到Universal Analytics以后提供的方法。在管理界面的Property中,选择Tracking Info,再选择Referral Exclusion List便可以添加你需要排除的来源域名。这样做和Filter的方法不同,它会保留用户的行为信息,只不过不再另行新建一个Session而已。

(注:官方英文帮助文档说将访问归作一个direct traffic,笔者认为并非指“直接访问”而是指忽略中间离站的过程。)

utm_nooverride=1

utm_nooverride(两个o,两个r)这个参数从一开始就是为了应对访问来源排除而生,在没有升级到Universal Analytics以前,utm_nooverride是解决暂时离站带来的访问来源的唯一手段。它的值只能为1。如今,你依然可以用这个参数来屏蔽这些访问来源。utm_nooverride相对Referral Exclusion更加灵活,而且可以避免由于Referer Policy(引荐来源政策)的影响无法获得正确Referer从而无法匹配域名的情况。虽然有这些优点,但使用utm_nooverride的前提是你必须要能够设置一个回调URL。如果你无法设置第三方网站返回的URL地址,那么还是使用第一种方法为妥。

假设你的网站是a.com,支付网页在p.com。支付成功后你要指定用户返回http://a.com/success?orderID=123456,那么你就会指定http://a.com/success?orderID=123456&utm_nooverride=1作为回调URL。

以上就是本篇介绍的解决暂时离站(跨站跟踪)的GA设置方法。希望对你有所帮助。如果你想了解更多关于Referrer的规则,请参阅W3的Referer Policy

感谢阅读,感谢关注极诣。