搜索引擎优化指南2.0( 从《baidu搜索引擎优化攻略2.0》一文)

优采云 发布时间: 2022-04-15 16:06

  搜索引擎优化指南2.0(

从《baidu搜索引擎优化攻略2.0》一文)

  

  从《百度搜索引擎优化策略2.0》一文中,我们可以了解到,百度和所有搜索引擎都是通用的,有价值的文章。在复制和粘贴技术如此便捷的当今世界,很难在 Internet 上仅拥有内容。随着时间的流逝,相同或附近的版本会越来越多,目的只有一个:一切都是为了流量。因此,无论版权如何,无论用户是否在一些官方网站或门户网站上看到,都悄悄转载,以小说标题吸引读者获取流量。结果,互联网上充斥着许多类似的页面。据统计,类似重复页面的数量占总页面数的比例高达29%,而相同的页面约占总页面的22%,即互联网页面。相当一部分内容与重复页面完全相同或大致相似。这些重复页面有些是没有任何更改的副本,有些是对内容稍作修改的内容,例如同一 文章 的不同版本。

  页面重复可分为以下四种:

  1、如果两个文档的内容和版面完全一样,那么重复就可以称为完整的重复页面。

  2、如果两个文档的内容相同,但布局不同,则称为内容重复页。

  3、如果两个文档有一些重要的内容相同,而且布局也一样,则称为重复页面布局。

  4、如果两个文档的某些重要内容相同,但布局不同,则称为某些重复页面。

  搜索引擎寻找相似的重复页面,即通过技术手段(如baiduspider)快速发现所有这些重复信息,如何快速准确地找到这些内容相似的页面,成为提高搜索引擎服务质量的关键技术之一。

  发现相似页面对搜索引擎有以下好处:

  1、同一页面实际显示的内容是一样的,所以百度可以删除这些重复页面,节省百度数据库空间,从而节省资源消耗,提升用户体验,减少用户查看有价值页面的时间.

  2、汇总整理同页出处网站后,对于没有原创内容的网站,采取奖惩办法降低权限或索引,并且 原创 的作者应该受到保护。搜索引擎数据库的版权和通用内容。

  3、如果我们可以通过分析过去采集的信息提前发现重复的页面,就可以在以后的页面采集过程中避免这些页面,进而提高页面采集速度。研究表明,重复页面不会随时间发生太大变化,因此从重复页面集合中选择一些页面进行索引是有用的。

  4、如果一个网站与其他站点相似度高,根据文章引用的思路,可以断定抄袭的网站更类似于其他 网站 更有价值,搜索引擎可以习惯于给这个 网站 更高的权重。

  实用的搜索引擎在爬取过程中经常会进行近似的重复检测。下图说明了搜索引擎中近似重复检测任务的过程。当爬虫爬取一个新的页面时,它需要与已经在索引中建立的页面重复识别。如果确定是类似的重复页面,直接扔掉。如果发现是全新的内容,将被添加到页面索引中。中间。

  回顾上一讲我们讲的《网站搜索相似度和页面相似度》,可以看到百度Spark项目已经开始展现搜索引擎去重算法的优势和必然趋势。在未来网站的建设和优化过程中,不要盲目扩充网站的内容,而是从质量入手,逐步赢得搜索引擎的信任。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线