与ChatGPT共舞,你需要怎么做?
马老师从去年12月开始玩ChatGPT后,经历了欣喜若狂、细思极恐和到现在坦然面对的三个阶段。对于大多数将要65岁退休的我们来说,前路又多了许多不确定性,甚至有一段时间我开始考虑要不要断更。
- 到2025年,来自大型组织的 30% 的对外营销信息将由合成生成,远高于2022年的不到2%。
- 到2025年,30%的新药和新材料将系统性地由生成式AI技术发现。
- 到2030年,将有90%的电影由AI生成(从文本到视频),而2022年这一比例为0%。
但是,如果你发现人工智能和人的显著区别后,就能够正视人的价值——只有人才能够提供Opinions和Insights,也只有人才会去追逐小几率事件,这才是创新的最大动力。
毕竟,至少在当前的大多数时候,我们在做的是人云,AI在做的是亦云。本篇,没有外卡充值ChatGPT大会员的马老师将接着聊一点ChatGPT。
我们面对ChatGPT无非是三种选择:忽略它,屏蔽它,拥抱它。不管怎么说,我们先要了解ChatGPT的信息来源。
ChatGPT的信息来源是?
ChatGPT基于GPT-3.5,也称为InstructGPT。它使用了人类反馈强化学习技术RLHF。用于训练的数据集是:
- Common Crawl,即普通抓取(经过滤)
- WebText2
- 一类图书
- 二类图书
- 维基百科
上述五个数据集中前两者是对互联网的抓取。WebText2是OpenAI的一个私有数据集,它爬行了Reddit有三个赞以上的内容。原因当然是这些内容更可信更高质量。
如果你不想让ChatGPT抓取该怎么做?
于是,显然如果你不想你的内容被ChatGPT采用,最好的办法是不被Common Crawl抓取到。而控制网页不被Common Crawl机器人抓取到的直接做法是在robots.txt中添加禁止其爬行的指引。
这个SEO应该很熟:
User-agent: CCBot Disallow: /
需要注意的是,和大多数爬虫一样,有时候它的User Agent会伪装成其他机器人或者正常用户。因此并没有一种保险的做法。除非你连搜索引擎都禁止掉。
如果你希望ChatGPT更多地采用你的内容该怎么做?
做好网站的SEO
上面我们说了,人工智能还是需要通过机器人来爬行,你的网站来获取你的内容的。因此,做好SEO就是要做好网站的可爬行性,这可以很好的让你的网站的内容被人工智能获取。
只有机器人获取了内容,爬取到了网上的文字,它才能够建立理解你的文章的内容的基础。
提高网站的可爬行性,有很多方面,其中不乏我们之前介绍过的robots.txt,还有就是要避免使用JavaScript来体现我们的内容。因为机器人使用JavaScript来渲染我们网站的内容,会需要更多的资源。
为ChatGPT制作内容
通常来说,你并不需要为此担心,你只要为真实的人类准备内容就可以了。但是为了能够让人工智能更好的理解你的内容,你需要写得更加有条理,更加让他AI能够看出你的内容的逻辑性。
于是为你的文章加一个概要会是非常好的实践。在每一个段落和章节,需要有明显的层次性分段,学好语文的重要性就在这里体现了。
你可以用自问自答的方式体现更多有价值的内容,前提是你知道互联网的用户会问哪些问题。不过也千万不要用ChatGPT给你的文字,直接“拿来主义”地使用。
添加结构化数据帮助AI理解你的内容
尽管我们现在还不知道未来是不是ChatGPT会使用结构化数据理解我们网页的内容,但是马老师相信这在未来一定是一种趋势。结构化数据能够将文字转化为实体,帮助人工智能更好的理解我们网页中语言的真正意义。
你可以在technicalSEO.com找到符合你的内容的结构化数据模板。
在受信任的网站中添加链接并管理好
我们前面介绍了ChatGPT用了许多包括Reddit社区的内容作为其训练语料,并且也从这些网站获得了许多可信的链接,丰富了他它的内容。
相对应地在中文互联网中ChatGPT使用了非常多的知乎的问答内容,因此我们可以借助这些社区平台问答网站来引流到我们自己的内容,使我们的内容更容易被ChatGPT采用。
我们可以在知乎中添加有用的问答,并为此添加一些互动和去到你的网站的链接,即便这些链接是NoFollow的也有助于AI发现这些内容。
试着站在巨人的肩膀上吧。
总结一下
当前只处于生成式AI的早期,但是从自然语言处理NLP的角度来看,我们默默地发展了多年终于迎来了第一次小高峰。伴随着这次小高峰我们能看到许多可以落地且商业化的应用。
以上我们介绍了如何利用我们现在掌握的关于ChatGPT的特性来做好内容营销。无论你做出何种选择,人工智能的爆发增长将会颠覆我们旧的互联网秩序。我们能做的只是更早了解这些变化并思考如何演化我们现有的营销基建。