《百度搜索引擎网页质量白皮书》深度解析和相应对策

百度站长平台最近发布了《百度搜索引擎网页质量白皮书》。对百度SEO来说,这份百度的“准官方”文档具有相当高的参考价值。极诣将为你详细解析该白皮书的内容和对百度SEO的要点总结。《百度搜索引擎网页质量白皮书》文档的下载,请移步百度站长平台

总览

百度的这份白皮书,主要针对的是网页质量。请注意网页质量和网站质量是不同的。好的网站质量可以影响网页质量,而好的网页质量并不能决定好的网站质量。这里的观念非常匪夷所思,事实上就连百度官方的说法也前后矛盾。这说明百度自身也在寻求改变。至于百度的方向是否正确,我们不得而知。 在极诣早先的关于百度石榴算法的文章中就已指出,百度对低质量页面和低质量网站的定义其实还是有所不同的:

低质量站点是指:无原创,或者伪原创(很少原创内容,大量采集的内容或机器生成/修改的内容);这部分站点并非为最终用户所设计,而只是为了从搜索引擎获取流量。
而低质量页面的意思在石榴算法中仅仅是:
含有大量妨碍用户正常浏览的恶劣广告的页面,尤其以弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告页面为代表
这些都是百度官方的说法。详见:《针对低质量站点的措施已经生效》以及《石榴算法—低质量页面终结者》。 作为百度SEO,我们首要关注的问题是:如何不让自己的网站成为低质量站点,同时尽量避免出现低质量页面。

衡量网页质量的维度

百度将网页质量的维度分为三块:内容质量、浏览体验和可访问性。百度透露仅有7.4%的页面属于优质页面,而又有21%的页面属于质量差网页,我们来逐一分析。

内容质量

百度的这份白皮书,我们在阅读的时候并不能完全当做百度的即行标准。而应当看作百度当前标准和“美好愿景”的组合。因为有些标准难以量化,即便是搜索引擎也无法判断。百度仅能判断自身品牌下的那些贴吧问答产品的完整性和价值。另外白皮书中一些所谓“权威”,“专业”的模糊的定义实际上是对百度推广、网站质量等其他因素参考后的判断,所谓“皇帝拉的屎都是香的”,中小站点不必过多纠结。 对于内容质量,在不作弊的前提下,极诣的建议是:

  1. 正文内容不可过少,100字以上为佳。
  2. 正文字体不宜过小,10px以上为佳。
  3. 正文中插入一两张图片,做好Alt属性。
  4. 导航不使用图片,明确元素id为menu,nav相关关键词便于机器人理解。HTML5可以使用<NAV>标签。
  5. 多使用面包屑定位。
  6. 电子商务页面不出现“已下架”,“已结束”等关键字,确实已下架需用设置死链或使用robots.txt。(注:经过百度同学提点,原本推荐的noindex暂时百度还未支持)。
  7. 招聘页面不出现“已结束”或“已失效”等关键字,确实已失效需用设置死链或使用robots.txt。
  8. 百度无法判断你的网站下载资源或影视资源究竟是失效还是版权限制,所以下载链接只要不返回404即可。
  9. 百度无法判断问题的回答是否真的有效,如果你的回答部分用了明确的“回答”,“答案”请勿留空。
  10. 网站上线初期的低流量时期,不要使用百度统计。
  11. 做好百度结构化数据集成

在这里,我们还需要发现的一个信号是,除了权威新闻站提到了“原创”,百度已经不再推广“原创”了。百度判断的标准是“只要用户OK,百度就容忍。”因此我们看到即便是抄袭的文章,盗版的内容,只要你的网站有人看就没问题。 百度网页内容质量中举例

浏览体验

浏览体验方面你将需要和你的前端工程师一起进行优化,而不是设计师。百度知不知道你的网站是不是“美观”这个答案勿需多说,此处又是百度的“美好愿景”。 但是百度的小机器人仍然知道很多,所以极诣推荐你做好以下几点满足百度对浏览体验的标准:

  1. 优化HTML,JS和CSS代码,加快页面加载速度。
  2. 分布加载图片,避免页面载入时间过长。尤其对手机浏览更加苛刻。
  3. 正文在HTML中位于边栏底栏之上。
  4. 广告放置建议:
    • 图片类广告以右侧栏为主
    • 底部可适当放置文字广告
    • 主栏正文处尽量不放广告,如需放置要注明“广告”
    • 放一点“百度联盟”的广告
  5. 层不覆盖正文内容,浮动广告如果在某分辨率下覆盖正文内容需移除。
  6. 字体颜色和背景颜色高对比度。
  7. 字体不过小,10px以上为佳。
  8. 不弹窗。
  9. 正文必须至少分3段,短文至少分2段。

可访问性

可访问性主要是两个重点:首先用户必须能访问你的网页并且快速地打开,其次用户可以不太费力气地访问登陆后页面内容。由于搜索引擎的机器人不会自己去注册一个网站登陆后的情况也属于百度单方面的“美好愿景”。 在可访问性方面,极诣的建议是:

  1. 保证页面可以在国内访问的情况下4秒钟以内打开,双线部署和CDN需要被考虑。
  2. 对登陆后的内容要多加描述,让用户知道登陆后可以下载或者浏览的大致内容。
  3. 使用社会化登陆,如QQ登陆、新浪登陆、百度登陆。
  4. 对于采集来的资源,要尽量避免登陆后下载。百度会比对你的网站和其他网站资源异同。
  5. 不包含恶意或者含有企图控制用户客户端的exe或app。
  6. 重视处理报错页面:404,403,503等。如果发现页面失效要及时主动提交。

写在最后

千万不要以为低质量页面就是底线了,百度在其之下还有“垃圾页面”的分类,这才是下限。SEO们更应该警惕。

百度低质量网页分布

百度低质量网页分布

百度垃圾网页分布

百度垃圾网页分布

综合来看,百度目前对用户体验的重视有其对竞争对手的针对性,但是对原创内容的downplay和对抄袭采集内容的姑息使其与尊重知识版权等国际共识背道而驰,同时也与自己先前大张旗鼓的星火计划相违背。在此极诣要送给百度和各位百度SEO的一句话是已故喜剧大师罗宾威廉姆斯的话:

You will have bad times, but they will always wake you up to the stuff you weren’t paying attention to. (你或许经历挫折,但是他们永远会将你敲醒,教你去做你从未在意的事。)