ChatGPT终于有了正儿八经的爬虫
||

OpenAI发布GPTBot,GPT优化终于有据可依

ChatGPT终于有了正儿八经的爬虫
ChatGPT终于有了正儿八经的爬虫

ChatGPT的制作公司OpenAI最近发布了一个被叫做GPTBot的爬虫。该爬虫将会被用于数据收集并提供给AI训练。这些成果将影响GPT-4和GPT-5的准确性。

说到与ChatGPT相关的爬虫,马老师在今年曾先后介绍过CCBotChatGPT-User。前者被用于早期ChatGPT的数据收集,这部分数据到21年底为止。后者被用于Browsing插件检视目标网页内容。

可以这么说,一个是已经或即将被弃用的爬虫,另一个是仅仅处理单一请求的爬虫。GPTBot的推出意味着ChatGPT-User并不能使得GPT-4的知识库增长。

GPTBot才是GPT派来刷经验真正用来收集信息并升级知识库的爬虫

那么现在我们就可以推断,你的网站的内容想要被GPT引用的前提是GPTBot来爬过你的网页。如何找到GPTBot的爬行记录呢?你可以在你的网站的access log中寻找类似这样的User Agent:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

当然,你也可以通过robots.txt文件来控制哪些内容可以被ChatGPT获取,哪些不可以。

比如,你不想让GPT爬虫获取任何你的网站的内容。你可以在robots.txt中这样写:

User-agent: GPTBot
Disallow: /

如果想让除了某个目录的其他内容不被爬取,可以这样写:

User-agent: GPTBot
Allow: /dir-1/
Disallow: /

与robots.txt相关的知识点可以参考马老师以前分享的内容

如果你有对版权的顾虑可以对某些内容进行GPT的屏蔽,但是如果你特别在robots.txt中allow了内容,可能就意味着对GPTBot开放版权。这点请注意。

从现阶段的ChatGPT的特性来看,即便提供了内容,ChatGPT也不会给出引用出处。因此开放你的内容仅仅是为爱发电。理论上只要你没有屏蔽BingBot,搜索引擎依旧可以发现你的内容,依旧能够通过New Bing为你带来一些流量。

GPTBot的推出意味着什么?

GPTBot的推出意味着OpenAI通过这大半年的时间已经沉淀了许多用户的使用数据,同时截止到21年的知识库不再能满足现有用户的需求。即便考虑到插件的补充,这部分知识的缺失会使得体验下降。

GPTBot的推出也意味着OpenAI有足够能力来辨识信息的可靠性。我们知道ChatGPT推出前后都有大量机器人产出的内容,许多都是胡说八道的假新闻。OpenAI现在有一定信心对此进行干预。

对于致力于品牌传播和搜索引擎营销的我们来说,GPTBot的出现给我们重要的参考。我们可以更好地研究GPTBot获取了我们哪些信息,我们的内容是否受到AI的关注,我们如何提高AI对我们内容的爬行频率和覆盖率。这些指标都是极为有用的。

类似文章