搜索引擎如何抓取网页(搜索引擎抓取页面的方式!(一)--*敏*感*词*)

优采云 发布时间: 2022-02-04 08:02

  搜索引擎如何抓取网页(搜索引擎抓取页面的方式!(一)--*敏*感*词*)

  搜索引擎如何抓取网页?本文由新泉寻网站长编辑。转载请保留此链接!做seo就是为了讨好搜索引擎,所以一定要明白搜索引擎是怎么爬网页的!搜索引擎不可能一次爬取网站中的所有页面,网站中的页面数量在不断变化,内容也在不断更新。因此,搜索引擎也需要对已经爬取的页面进行维护和更新,以便及时获取页面的最新信息,爬取更多的新页面。常见的页面维护方式有:定期爬取、增量爬取、分类定位爬取。周期性爬取 周期性爬取也称为周期性爬取,即 搜索引擎会定期更新 网站 中已出现过的页面。更新时,用捕获的新页面替换原来的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新是针对所有已经收录的页面,所以更新周期会更长。例如,Google 通常需要 30-60 天来更新已为 收录 的页面。周期性抓取算法的实现相对简单。由于每次更新都涉及到网站中所有已经是收录的页面,所以页面权重的重新分配也是同步进行的。此方法适用于维护页面少、内容更新慢的网站,如普通企业网站。不过由于更新周期很长,更新期间页面的变化无法及时反映给用户。例如,页面内容更新后,至少需要 30 到 60 天才能反映在搜索引擎上。

  增量爬取增量爬取是通过定期监控爬取的页面来更新和维护页面。但是,定期监视 网站 中的每个页面是不切实际的。基于重要页面承载重要内容的思想和80/20法则,搜索引擎只需定期对网站中的一些重要页面进行监控,即可获取网站中相对重要的信息。因此,增量爬取只针对网站中的部分重要页面,而不是所有已经收录的页面,这也是搜索引擎对重要页面的更新周期较短的原因。例如,内容更新频繁的页面会被搜索引擎频繁更新,从而及时发现新的内容和链接,删除不存在的信息。由于增量爬取是在原创页面的基础上进行的,因此搜索引擎的爬取时间会大大减少,并且可以及时将页面上的最新内容展示给用户。由于页面的重要性,分类定位爬取不同于增量爬取。分类定位爬取是指根据页面的类别或性质制定相应的更新周期的页面监控方法。例如,对于“新闻”和“资源下载”页面,新闻页面的更新周期可以精确到每分钟,而下载页面的更新周期可以设置为一天或更长。分类定位爬取分别处理不同类别的页面,可以节省大量的爬取时间,

  但是,按类别制定页面更新周期的方法比较笼统,很难跟踪页面更新。因为即使是同一类别的页面,不同网站s上的内容更新周期也会有很大差异。例如,新闻页面在大型门户 网站 中的更新速度比在其他小型 网站 中的要快得多。因此,需要结合其他方法(如增量爬取等)对页面进行监控和更新。其实网站中页面的维护也是由搜索引擎以多种方式进行的,相当于间接为每个页面选择了最合适的维护方式。这样既可以减轻搜索引擎的负担,又可以为用户提供及时的信息。例如,在 网站 中,会有各种不同性质的页面,常见的有首页、论坛页、内容页等。对于更新频繁的页面(如首页),可以采用增量爬取的方式对其进行监控,从而相对网站中的重要页面可以及时更新;对于非常实时的论坛页面,可以使用分类定位的爬取方式;并且为了防止网站中的部分页面出现遗漏,还需要采用正则爬取的方法。对于非常实时的论坛页面,可以使用分类定位的爬取方式;并且为了防止网站中的部分页面出现遗漏,还需要采用正则爬取的方法。对于非常实时的论坛页面,可以使用分类定位的爬取方式;并且为了防止网站中的部分页面出现遗漏,还需要采用正则爬取的方法。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线