基于关键词提取的重复页面检测算法基本原理是什么?
优采云 发布时间: 2021-05-25 19:36基于关键词提取的重复页面检测算法基本原理是什么?
按照搜索引擎的工作原理,它可以分为三个步骤:网络爬网,分析和存储以及查询和检索。其中,在分析和存储中,百度有一系列相关算法来确定文章是原创还是伪原创。对于伪原创或采集的Web内容,当百度计算初始质量权重时,它非常低,并且原创 文章将得到更高的支持。
让我们首先看看百度对原创和伪原创的正式定义:
1、高质量原创内容:百度将原创定义为经过一定成本和大量经验形成的文章。
2、 伪原创:在采集的内容之后,对关键词的某些内容进行了批量修改,以使百度认为它们是唯一的内容,但是该内容是无法识别的,甚至无法阅读通-这也是百度不喜欢的,风险很大。只是说了一点,百度不排除网站的内容采集,关键是如何使用采集的内容和数据,如何整合用户和搜索引擎需要的内容是网站站长的内容应该考虑。
百度如何分辨文章的内容是原创还是伪原创
一、基于关键词提取的重复页面检测算法
基本原理是:有一个大型网页集合P,其中收录许多网页作为pi。每个网页pi分别提取关键词 tj以形成向量Wi =(W1,W2,... Wj)。其中,有两个影响因素Wj,一个是关键词 j出现在网页中的频率,另一个是关键词 j出现在网页集合P中的次数的倒数。如果两个网页是重复的页面,则仅需判断代表两个页面的向量Wi和Wj之间的角度大小即可。角度越小,两页的重复率越高。
二、基于全文本段匹配的重复页面检测算法
这种类型的算法使用一种在段中对全文进行签名的方法。该算法根据某些原理将网页划分为m个片段,然后对每个片段签名(即计算指纹),因此每个文档都可以由m个签名指纹表示。对于任何两个文档,当它们的m个签名中的t个签名相同时(t是系统定义的阈值),则将它们视为相互重复的内容网页。
三、基于模板去噪的重复内容检测算法
因为大量相似的镜像网页不是原创网页的简单副本,而是将要重新打印的内容放置在新模板中以提供服务。因此,模板中的内容将干扰算法程序对近似镜像网页的判断,从而导致错误的检测结果。基于模板噪声消除的重复内容检测是先对网页进行净化,去除网页中的模板噪声内容,再提取网页主体,再结合其他重复内容检测算法对网页主体进行重复数据删除。
收录无法用于衡量内容质量
百度对网络内容价值的判断并非基于我们认为的“ 原创”,也不是通过收录来衡量的。在大多数人看来,原创的内容应为收录,并且伪原创 采集不应排名。如果竞争仅基于内容的稀缺性,则原创 文章自然会击败伪原创的采集。但是,除了页面的质量外,影响网页的收录也受站点总权重的影响。实际上,大多数因素仍然取决于后者。
通常,具有较高内容质量收录的网站具有较高的比率,但这并不意味着具有大量收录的网站或具有良好内容质量的网站是良好的。您可能还已经看到采集 / 伪原创的等级比原创好,收录更好,但是我们不做单方面的分析,而是给出部分概述。您可以尝试查看其内容的更新频率,网站的整体大小,域名的使用期限等。这些也是重要因素。 网站 收录的排名是由许多综合因素反复产生的最终结果。