提高网页收集速度的几个小技巧,你知道吗?
优采云 发布时间: 2021-06-09 23:22提高网页收集速度的几个小技巧,你知道吗?
删除网页
据统计,近似重复网页的数量占网页总数的29%,相同网页占所有网页的22%左右,即互联网网页有相当比例的内容有是许多类型相同或大致相似的重复网页。这些重复的网页有些是没有任何更改的副本,有些在内容上略有修改。比如同一个文章的不同版本,一个新的,一个旧的,有的只是网页格式不同(如HTML、Postscript)。内容重复可以概括为以下4种类型。
类型1:如果两个文档的内容和布局没有区别,这种重复可以称为页面的完全重复。
·类型2:如果两个文档内容相同但布局格式不同,则称为内容重复页。
·类型3:如果两个文档的重要内容相同,布局格式相同,则称为布局重复页面。
·类型4:如果两个文档具有相同的重要内容但布局格式不同,则称为部分重复页面。
所谓“近似重复网页发现”,就是通过技术手段快速全面地发现这些重复信息的一种手段。如何快速准确地发现这些内容相似的网页已成为提高搜索引擎服务质量的关键技术之一。
发现相同或相似的重复网页对搜索引擎有很多好处。
1. 首先,如果我们能找到这些重复的网页并从数据库中删除,我们就可以节省一部分存储空间,然后我们可以利用这部分空间来存储更有效的网页内容,同时提高搜索引擎的性能。搜索质量和用户体验。
2.其次,如果能够通过对以往采集的信息进行分析,提前发现重复的网页,可以在以后的网页采集过程中避开这些网页,从而提高网页采集的速度。研究表明,重复的网页不会随着时间的推移而发生太大的变化,因此这种从重复页面集中选择一些页面进行索引是有效的。
3. 另外,如果一个网页镜像度高,往往是其热门内容的间接反映,说明该网页比较重要,在采集网页时应该给予更高的优先级。当搜索引擎系统响应用户的搜索请求并对输出结果进行排序时,应该给予更高的权重。
4. 从另一个角度来看,如果用户点击了死链接,可以将用户定向到内容相同的页面,可以有效增加用户的检索体验。因此,及时发现类似重复的网页有利于提高搜索引擎系统的服务质量。
实际工作的搜索引擎往往在爬虫阶段进行近似重复检测。下图展示了搜索引擎中近似重复检测任务的流程。爬虫在新抓取网页时,需要对索引中已经创建的网页进行反复判断。如果判断为类似的重复网页,则直接丢弃。如果发现是全新的,则将其添加到网页索引中。
去重算法:
1.
2.
3.
A、B、C,这三个页面文章基本相同。那么搜索引擎如何选择?
说说搜索引擎的选择。
页面A的总推荐为:100
页面B的总推荐为:50
页面C的总推荐为:30
推荐意味着重量。内部搜索引擎称为推荐。
我们假设同页面搜索引擎的收录阈值为50推荐度。
C页为原创,被A、B两页转载。
那么就会出现一种情况:原创first 发表的页面是K,转载的页面排名很好。
所以即使网站的整个文章都是采集。只要整体重量高。那么收录也会很棒。
对于相同的内容,权重较高的页面会覆盖权重较低的页面。页面类聚会。下课了。