搜索引擎怎样识别重复信息?怎样判断哪些网页的信息是原创的?

优采云 发布时间: 2021-05-26 22:22

  搜索引擎怎样识别重复信息?怎样判断哪些网页的信息是原创的?

  在Internet中,信息的重复是不可避免的。但是,搜索引擎如何识别重复信息?如何判断哪个网页信息是原创?哪些被复制?您如何看待重复的信息是有价值的?什么可以丢弃?

  在网站中,重复信息主要包括两类:重印和镜像内容。当搜索引擎分析页面时,它必须具有重复信息的能力。因为大量的重复信息不仅占用了巨大的服务器资源,而且还增加了用户搜索信息的时间,降低了用户体验。但这并不意味着所有重复的信息都是无用的。搜索引擎会认为重印的内容不如原创重要,并赋予原创更高的权重,而镜像的内容几乎被忽略了。

  重新打印的页面是指与原创具有相同或相似内容的页面。但是,搜索引擎如何识别转载的页面?首先,它将网页的正文内容划分为n个区域以进行比较。如果m个区域相同或相似,则认为这些页面是彼此重印的页面。

  确定页面的重新打印关系后,搜索引擎将根据页面的最后修改时间,页面重量和其他因素确定原创页面和重新打印的页面。

  镜像页面是指内容完全相同的两个页面。像上面一样,内容被划分为n个区域,并且n个区域彼此完全相同。

  镜像网站。在两种主要情况下,上下一个相同的网站会形成一个镜像网站。多个域名或IP指向同一服务器的物理目录。此外,网站的全部内容将复制到具有不同域名或IP的服务器上。

  为了识别站点是否彼此为镜像网站搜索引擎首先确定这些网站主页是否彼此为镜像。然后综合页面权重,建立时间和许多其他因素来确定来源网站。这也是搜索引擎只有很少的镜像网站 收录甚至没有收录的原因。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线