用尽联邦学习的FLoC为什么会死?
极诣在去年介绍谷歌隐私沙盒的FLoC(Federated Learning of Cohort)时曾经评价“FLoC是谷歌当前最佳的答案”。但是仅过了不到一年,FLoC就被抛弃,转而被Topics API取代。当时,马老师曾经解释因为这些Cohorts很容易被利用,成为浏览器指纹的弹药来戕害用户的隐私。那么从我们营销者的角度看,这其中的是非曲直又是什么呢?困境在哪里呢?
跨域跟踪,被逼到角落的无奈之举
在Web端,我们要实现跨域跟踪,必须要在客户端的本地有一个存储介质。这个存储介质过去一直是第三方Cookie。我们至少需要存一个客户端的识别号,这样我们就能够跟踪这个浏览器整体的浏览历史了。
当第三方Cookie和广告技术供应商的服务器之间的通信被切断之后,我们就不能了解该客户端的浏览历史,也不能对该浏览器的用户进行识别或者贴标签了。
所以这种普适的方法被淘汰后,广告技术供应商就只能寄希望再下一层的浏览器API。至少暂时不需要再往下到操作系统层面。而恰好谷歌既是全球最大的广告技术供应商又是市场占有率最高的浏览器的开发方😉那就不用求人了。
这套API就是谷歌的隐私沙盒。
以汝之名,联邦学习和FLoC
想出联邦学习的点子是很自然的事。这好比我们去家具城买家具,不会把房间搬去,我们只需要量好尺寸去挑选定制即可。
联邦学习也是一样,它的精髓在于“数据不动算法动”。你不需要获得终端用户的PII(Personal Identifiable Information)信息,你只需要把你的训练算法推送到用户终端。依靠用户本地环境进行训练,然后把训练后结果,即更新后的模型参数加密回传即可。
这么看来联邦学习是挺可靠的,用户可以避免隐私的泄露。模型也可以不断迭代,使得算法更加精准可靠。那么问题究竟出在哪里呢?
问题并没有出在FLoC泄露了用户的PII或浏览历史,而是在于FLoC可以帮助广告网络辨识出单个用户。
你的名字,Cohort ID集合
使用FLoC来投放的广告和原来一样都需要使用DMP来判断Y/N的问题,都是需要竞价。而广告主出价的依据依然是该终端个体是否符合他们在DSP中预设的人群特性。
我们知道Cohort是通过联合学习在本地计算出来并保存的,虽然FLoC的每个Cohort都至少有一千个个体,但是只用一个Cohort去邀约竞价的话基本上跑不出量。因此会用一个包含多个Cohort的集合去代替以往的个体标签集合。换句话说,原来一个叫做【男,35-40,已婚,北京,宠物,汽车】的个体会被替换成【vqe7te,34y0g3,123bqe,a3sg03】。
过于精准而产生的隐私漏洞
虽然Cohort vqe7te有2万人,但是同时在这些Cohorts里的个体就很少了。
MIT的Alex Berke和Dan Calacci进行了测试,发现5万个家庭的9万部设备在4周后就有高达95%的设备被唯一标识出来。
于是对于广告网络来说,他们可以记录下该用户访问过其网络下的各个网站并很好地跟踪这个用户的行为。然后如果这里面恰巧有一个该用户登录的网站,那么在一些情形下广告网络甚至可能拿到PII并和该用户的浏览历史连结起来。是不是现在看来问题就严重了?
Topics API的补救
所以相信你现在能更好地理解为什么Topics API需要进行6选3并加入噪音了。你也能够理解为什么Topics的话题数量看上去那么少。因为多了意味着更容易暴露个体用户。

联邦学习在私有学习的时候可以很好地规避许多数据泄露的风险,比如在银行业使用。但是在广告科技中,当我们会暴露一些特征信息时,联邦学习就显得不那么有效。这好比我们带着这个尺寸去家具城的同时还会把我们家庭住址暴露,导致收到许多垃圾广告,那就成为问题了。
所以,FLoC死不足惜!