ChatGPT的Browsing插件可以代替用户去阅读网页内容
||

ChatGPT来抓你的网页了,你怕不怕?

ChatGPT的出现,让整个Web又燃起了生的希望。毕竟Web的起源就是开放,而APP生态和小程序生态是一种封闭。只要你的网站提供的信息是公开的,机器人就可以获取这些资讯并用作GPT的输出。

开放往往伴随着免费。以往的免费总是以价值交换的形式进行,如广告植入,数据资产的累积。但GPT抽取信息的形式比搜索引擎更进一步。它直接拿走了用户所要的信息却不为信息来源网站提供相应的收益机会。

对于GPT的这种白嫖信息的看法见仁见智。有的认为会出现知识产权的风险,也有的认为是传播品牌和信息的机会,还有的认为用户不来网站就能获取信息会严重影响到网站的广告收入。

马老师在二月的《与ChatGPT共舞,你需要怎么做?》一文中曾经教过大家-如果你不想要让你的内容作为GPT训练的语料该怎么做。你只需要在网站的robots.txt文件中禁止CCBot即可。

User-agent: CCBot
Disallow: /

但是这并不能拦住用户利用GPT来访问你的网站。因为OpenAI为ChatGPT开发了Browsing插件。利用这个插件ChatGPT Plus的用户可以间接访问你的网站。OpenAI的网站上有个简单易懂的视频Demo

ChatGPT的Browsing插件可以代替用户去阅读网页内容
ChatGPT的Browsing插件可以代替用户去阅读网页内容

它的工作原理很简单。当Plus用户开启该插件后,遇到现有知识库里无法回答的问题,需要最新知识的情况时,ChatGPT会调用Bing API返回几个相关的结果。然后就像我们正常使用搜索引擎一样,ChatGPT会一个个查阅这些结果网页并组合成答案给到Plus用户。当然,ChatGPT也会给出脚注来源网站。

实际上,因为Plus用户都普遍为高频用户,他们也会主动去点击链接验证ChatGPT的信息是否正确。所以马老师认为现在去屏蔽ChatGPT的Browsing插件为时尚早。当然如果你一定要禁止ChatGPT白嫖你的网页内容,还是可以使用robots.txt来屏蔽抓取。代码如下:

User-agent: ChatGPT-User
Disallow: /

总结一下,Bingbot、CCBot、ChatGPT-User是三个不同功能的爬虫。不管是从SEO的角度还是从品牌传播的角度都不建议屏蔽,除非我们有证据这些爬虫已经严重影响到了我们的商业模式和收入。

正是因为ChatGPT插件使用了Bing API来决定GPT阅读哪些网页,最近请教马老师怎么做Bing的SEO的人多了起来。Bing的SEO与谷歌非常相似,这得益于他们本身都是AI利用率很高的现代搜索引擎。同时也花了大量资源去渲染现代web中更为复杂的网页。不同的是Bing的广告竞争程度相较谷歌更小,一旦起量SEO的收益更大。这也是为什么在桌面端许多客户能见到Bing的自然搜索流量甚至超过百度的原因。

早在22年三月,马老师就提醒各位要重视Bing,并且提供了《教程:轻松使用Bing Webmaster Tools的API》。Windows11和Edge的普及带动了第一波流量提升,ChatGPT是第二波。

恰恰是上周Bing取消了Bing Chat的候补名单。不过对墙内的网站来说,刚刚下线的Bing Chat候补名单暂时并不会造成多大影响。受影响的是浏览器的市占率和海外搜索引擎的格局。

对那些以内容为产品的网站来说在未来将会遇到更多两难的抉择。不必说百度的ERNIE,因为既然有中国版的必应,就会有中国版的必应聊天,难道不是吗?

类似文章