百度伪原创(搜索引擎网页查重技术的处理方法有哪些?怎么处理?)

优采云 发布时间: 2022-03-17 21:22

  百度伪原创(搜索引擎网页查重技术的处理方法有哪些?怎么处理?)

  在搜索引擎的众多算法中,有一种网页复制技术。首先,说这个“重”其实很简单,就是重复内容。我们经常在网上看到同标题或同内容的文章,一些最新的新闻或关注度比较高的文章会被很多新闻媒体网站转载。这实际上对用户有好处。你可以让用户尽可能多地看到这个文章或者新闻。但是,搜索引擎有点郁闷,为什么呢?爬取具有相同内容的两个甚至更多内容意味着搜索引擎将花费更多时间多次处理相同的 文章 内容。在搜索引擎索引数据库中,可以索引两个相同的网页。

  那么如何处理上述问题呢?这就是网页复制技术的出现。搜索引擎根据内容和格式的相似度,形成四种网页相似度,分别是:1、两个网页的内容和格式完全一样;2、两个网页相同,但格式不同;3、两个网页有一些重要内容,格式相同;4、两个网页有相同重要内容,但格式不同。

  这是一个Shingle算法。简单来说,这个算法就是:一个长度为L的文档,每隔N个汉字取一个Shingle(瓦片意思),这样一共截取了L-N+1个Shingle。比较两篇文章文章截取的Shingle,检查同一个Shingle的个数,然后除以两个文档中Shingle的总数,再减去一致的Shingle个数。计算出来的结果称为Jaccard系数,用来判断文章的相似度。如果搜索引擎中的相似度达到0.2,则判断两篇文章文章相似。

  在判断了文章的相似度之后,还有一个去重操作,就是消除重复的内容。今天搜索引擎消除重复的方式是保留搜索引擎蜘蛛首先抓取的内容。

  从上面的搜索引擎算法中,可以简单的得到一些思路,这就是伪原创的思路。不赘述了,搜索引擎的算法也在不断的更新,现在更加精致,重复的内容和低质量的内容很容易被搜索引擎发现。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线