搜索引擎如何抓取网页(搜索引擎如何首先最重要的网页?(一)_)

优采云 发布时间: 2021-10-27 16:32

  搜索引擎如何抓取网页(搜索引擎如何首先最重要的网页?(一)_)

  搜索引擎面对大量的网页。他们不会并行抓取每个网页,因为无论搜索引擎数据库如何扩展,他们都跟不上网页的增长速度。搜索引擎将首先抓取最重要的网页。保存数据库对普通用户也有帮助,因为对于用户来说,他们不需要海量的结果,只需要最重要的结果。因此,一个好的采集策略是先采集重要的网页,让最重要的网页在最短的时间内被抓取。

  那么搜索引擎如何首先抓取最重要的网页呢?

  通过对海量网页特征的分析,搜索引擎认为重要网页具有以下基本特征。尽管它们可能不完全准确,但大多数情况下都是正确的:

  1) 一个网页被其他网页链接的特征。如果被多次链接或被重要网页链接,则是非常重要的网页;

  2) 网页的父页面被多次链接或被重要网页链接。例如,一个网页是网站的内页,但是它的首页被链接了很多次,首页也被链接了,如果这个网页被贴出来,说明这个网页也更重要;

  3) 网页内容已被广泛转载和传播。

  4)网页目录深度小,方便用户浏览。“网址目录深度”的定义是:网页网址除域名部分外的目录级别,即如果网址为,则目录深度为0;如果是,则目录深度为 1,依此类推。需要注意的是,URL 目录深度小的网页并不总是重要的,目录深度大的网页也并非完全不重要。一些学术论文的 URL 有很长的目录深度。大多数重要的网页都会同时具备以上四个特征。

  5)先采集网站主页,给主页一个高权重值。网站的数量远小于网页的数量,重要的网页必须从这些网站主页链接。因此,采集工作应优先获取尽可能多的网站主页。

  那么这个问题就出现了。当搜索引擎开始抓取网页时,它可能不知道该网页是否被链接或转载。也就是说,一开始,他并不知道前三项的特性。这些因素只有在获得网页或几乎所有的网页链接结构后才能知道。那么如何解决这个问题呢?即特征4和特征5在爬取时就可以知道,只有特征4不需要知道网页的内容(在网页被抓取之前)来判断一个网址是否符合“重要”标准,计算网页的URL目录的深度就是对字符串的处理。统计结果显示,一般URL长度小于256个字符,这使得对URL目录深度的判断很容易实现。因此,在确定采集策略时,特征 4 和特征 5 是最值得考虑的。

  但是,功能 4 和功能 5 有局限性,因为链接的深度并不能完全表明此页面的重要性。那么如何解决这个问题呢?搜索引擎使用以下方法:

  1) URL权重设置:根据URL目录的深度,与深度一样减少权重,最小权重为零。

  2)设置初始URL权重为固定值。

  3) 如果 URL 中出现“/”、“?”或“&”字符一次,则权重减一,

  如果“搜索”、“代理”或“门”显示一次,则权重减一;最多,它会减少到零。(包括”?”,

  或者“&” URL 是带参数的形式,需要通过被请求方的程序服务来获取网页。搜索引擎系统关注的不是静态网页,因此权重相应降低。收录“search”、“proxy”或“gate”,表示该页面最有可能是搜索引擎检索到的结果页面,代理页面,所以应该降低权重)。

  4)选择不访问URL的策略。因为重量小并不一定不重要,所以有必要

  给予一定的机会来采集权重较小的未访问过的 URL。选择未访问URL的策略可以采用轮询的方式进行,一次根据权重值选择,一次随机选择;或N次随机选择。

  当搜索引擎爬取大量网页时,进入以前三个特征判断网页的阶段,然后通过大量算法判断网页的质量,然后给出相对排名.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线