命名上百度也取了BERT的好基友ERNIE的名字
|

BERT是什么?拜托请说人话

上月,谷歌宣布启用BERT作为谷歌新算法的一部分,这将影响10%的检索。这也意味着这是谷歌五年来最重要的一次算法更新。

BERT算法诞生于2018年,从当时开始就引起了AI界尤其是NLP(自然语言处理)界的轰动和关注,一跃成为最强大的自然语言处理模型。业界也基于BERT或者受到BERT启发出现了更多改进的模型,比如百度的ERNIE。

网上有众多大神介绍BERT的资料,但是由于BERT基于深度神经网络,起点很高,对我们数字营销者来说未免过于晦涩难懂。本篇,极诣就试着用大白话告诉你BERT是什么?对我们数字营销者尤其是搜索引擎相关的营销者来说又意味着什么?

BERT (Bidirectional Encoder Representations from Transformers)

我们用谷歌翻译来翻译这个全称会得到变压器的双向编码器表示。这搞笑的名称会让你更加云里雾里,没翻译成变形金刚还算不错。BERT只是一种制作模型的训练方法。那么模型是什么?训练又是什么?

建模型好比做模具,规定尺寸形状
建模型好比做模具,规定尺寸形状

模型就好比我们做蛋糕的模具,它里面有各种各样的尺寸参数,规定了烤出来蛋糕的形状。我们也可以对特定的自然语言做一个模具,这样可以规范机器预测、翻译或者生成的语言,听起来像人话。有了模型我们就可以套用,知道一句话里的信息、结构、感情等,使之更接近人类充分理解语言。

微调打磨各个参数
微调打磨各个参数(抱歉图没选好)

那么训练又是什么呢?训练是机器学习的过程,即Machine Learning的过程。它好比我们制作模具的过程。想象一下我们做陶艺的时候,底盘在那儿转,我们用双手捏一下,掐一下,让这个陶胚在烧制前变成我们想要的形状的过程。如果不满意,我们就用手再修正一下,一直到满意为止,这就是在训练。通常修正的次数越多,就就越接近我们要的结果,先粗加工,再精工。自然语言训练就需要用上亿的语料对模型进行打磨,这个打磨就是调整模型的参数,最终获得精准度高的模型。

BERT这种训练语言模型的方法,有一些特点。比如,它不去干预机器学习过程,很“道家”。再比如,它是双向的,不单考虑文本中前面讲了什么,还考虑后面讲了什么。这就是所谓的“双向”。它训练的时候就好像填空题或者我们英语考试里的完形填空,做完题自己对答案。例如,它就会给自己出极诣(_____)营销,然后填上“数字”。发现填对了,表扬一下自己(调一下参数);发现错了,惩罚一下自己(调一下参数)。除了填空BERT还会考小学生语文考试中的语序排列,抽两个句子看先后。这赋予了模型验证语句对是否是问和答的能力

BERT出来的模型如何?

谷歌为了构建模型用BERT跑了自己抽取的Wikipedia网站的25亿词量外加之前的BooksCorpus的8亿词量,调了多少个参数呢?3TM亿个(这里的TM不是Trillion和Million纯属感叹)。

该模型横空出世后便击败了全球剩余其他100%的模型,其准确率达到巅峰。谷歌把该模型用于自家搜索引擎并不意外,并且谷歌还将BERT开源了(请点赞)。微软也称他们2019年四月份便开始在Bing中使用具有BERT模型能力的算法(BERT论文中大多数前微软员工)。

我们可以看一下谷歌提供的应用BERT前后的检索对比。

BERT让谷歌更准确了
BERT让谷歌更准确了

在没有应用BERT前,第一条结果完全搞反了。问的不是美国公民去巴西要不要签证,而是巴西公民来美国要不要签证。

在没有应用BERT之前,搜索引擎把含各个关键字碎片的网页找出来相交后按排名信号排序,并不考虑具体意思。因此各个单词出现在检索词中的顺序并不那么重要。

而在应用了BERT之后,算法充分理解了用户究竟在问什么并且也理解了网页内容究竟在说什么,最终提供了完美的答案。

BERT对SEO的影响

由于BERT加强了谷歌对语句的理解,最显著的现象是结果更加准确了,尤其是对于长尾词。市面上的SEO工具普遍都对一些检索量较大的关键字进行跟踪,因此排名的波动并不明显,但是如果你的自然搜索流量(通常占网站的访问量的一半)波动很大,那么需要查看是否是因为长尾词流量的波动。

BERT是搜索引擎对语义理解的增强,它既不是一种负面降权算法也不是正面提权算法,因此没什么可以优化的。只能说不该是你的就该还回去,该你的总会是你的。如果你希望在具有BERT算法的搜索引擎上取得良好表现,那么还是请你回到满足用户检索意图的根本上,站在用户的角度考虑用户的需求另外BERT的应用简直是对中度洗稿的一记当头棒喝,内容还是要原创哦!

笔者猜测百度也已经或者将要应用ERNIE,不过由于中文检索的用户检索习惯,整句检索的比例应该不如英文检索那样常见,预计影响有限。

BERT与ERNIE

ERNIE (Enhanced Representation through kNowledge IntEgration)是百度优化BERT的产物。

命名上百度也取了BERT的好基友ERNIE的名字
命名上百度也取了BERT的好基友ERNIE的名字

在中文训练中,BERT是以中文的每个汉字为单位来训练的,因此效果并不怎么突出。百度的ERNIE真正考虑到了“词”的范畴,利用知识图谱对其进行了增强,还对新闻资讯类、论坛对话类数据进行学习。

效果上ERNIE比BERT在中文上更为出色
效果上ERNIE比BERT在中文上更为出色

人工智能的时代

除了搜索引擎,应用BERT的NPL还可以应用到其他领域,比如聊天机器人,自动外呼,输入法等。

你也可以看看美团是如何应用BERT理解用户的反馈的

美团-大众点评 外卖和酒店场景下推荐理由
美团-大众点评 外卖和酒店场景下推荐理由

现在我们只是借助云计算的能力快速完成对机器人的训练,在未来量子计算的支持下,我们不免担心,不只是营销,整个世界都将会变成人与人、人与机器交流融合的世界。区别“夏天能穿多少穿多少”和“冬天能穿多少穿多少”的意义不同绝非难事。机器不单能理解语义,亦会逐步产生感情。更重要的是当我们出生时就可能会植入一个芯片同步学习我们与外界发生的交互,人类会以另一种形态得到永生。

扯远了,那么,你懂BERT是什么了吗?

类似文章