搜索引擎常见的页面维护方式包括:定期抓取、增量抓取及分类定位
优采云 发布时间: 2021-08-25 03:02搜索引擎常见的页面维护方式包括:定期抓取、增量抓取及分类定位
因为搜索引擎不可能一次性抓取网站中的所有页面,而且网站中的页面数不会不断变化,内容不断更新。因此,搜索引擎也需要对抓取到的页面进行维护,同时能够及时获取页面的最新信息,抓取更多的新页面。常见的页面维护方式有:定期爬取、增量爬取、分类定位爬取。
1.定期获取
周期性爬行也叫周期性爬行,即搜索引擎周期性地更新网站中已收录的页面。更新时,将原来的旧页面替换为获取的新页面,删除不存在的页面,存储新发现的页面。周期性更新是针对所有交给收录的页面,更新周期比较长。例如,Google 通常需要 30 到 60 天才能更新一个已被收录 的页面。
周期性爬取算法的实现比较简单。由于每次更新都涉及在网站 中已经被收录 的页面,因此页面权重的重新分配也是同时进行的。此方法适用于维护页面较少、内容更新较慢的网站。但是由于更新周期很长,导致无法及时将更新过程中页面的变化反映给用户。
2.增量爬取
增量抓取通过对抓取到的页面进行定期监控,实现页面的更新和维护。但是,在网站中定期监控每个页面的做法并没有显示出来。因为重要页面携带重要的内容信息,增量爬取是针对一些重要的页面,而不是所有已经收录的页面,这也是搜索引擎更新周期较短的原因。
由于增量抓取是在原创页面的基础上进行的,所以会大大增加或减少搜索引擎的抓取时间,也可以及时向用户展示页面上的最新内容。
3.Category 定位爬取
不同于增量抓取的重要性,分类定位抓取是指根据网页的类别或性质设置相应更新周期的一种页面监控方式。例如,对于新闻信息和资源下载两类页面,新闻信息页面的更新周期可以精确到每分钟,下载页面的更新周期可以定位在几天甚至更长时间。
分类和位置抓取将不同类型的恶意面分开,可以节省大量抓取时间,大大提高页面内容的实时性,增加页面抓取的灵活性。但是根据类别制定页面更新周期的方式比较笼统,难以跟踪页面的最新情况。因为即使是同一个分类的页面,不同网站上的内容更新时间也会有很大的不同。
其实搜索引擎也是采用多种方式维护网站中的页面,相当于间接为每个页面选择了最合适的维护方式。这样既可以减轻搜索引擎的负担,又可以为用户提供及时的信息。