搜索引擎如何抓取网页(搜索引擎好的搜集战略是优先搜集重要的网页，他们并不是平行的抓取)

优采云发布时间: 2021-10-27 17:01

　　搜索引擎面对大量的网页。他们不会并行抓取每个网页。因为无论搜索引擎数据库如何扩展，都跟不上网页的增长速度。搜索引擎将首先抓取最重要的网页。保存数据库，一方面对普通用户也是有帮助的，因为对于用户来说，他们不需要海量的后果，只需要最重要的后果。因此，一个好的采集策略是先采集重要的网页，让最重要的网页在最短的时间内被抓取。那么搜索引擎如何首先抓取最重要的网页呢？

　　在分析了大量网页的特征后，搜索引擎认为重要的网页具有以下基本特征。虽然可能不完全准确，但大部分确实是这样的： 1) 一个网页被其他网页链接的特征，如果它被链接的频率更高或被其他网页链接，则是一个非常重要的页面一个重要的网页；

　　2) 一个网页的父页面被多次链接，或者可能被重要网页链接。比如一个网页是网站的内页，但是它的首页链接了很多次，首页也链接了这个网页，说明这个网页也比较重要；3) 网页内容已被广泛转载和传播。

　　4) 网页目录深度小，方便用户阅读。“URL目录深度”的定义是：网页URL除域名部分外的目录级别，即如果URL为www.，则目录深度为0；如果是 www. /cs，目录深度为1，依此类推。需要澄清的是，URL目录深度小的网页并不总是重要的，目录深度大的网页也并非都是不重要的。一些学术论文在网页的 URL 中有很长的目录深度。一些非常重要的网页会同时具备以上四个特征。5)先采集网站主页，给主页一个高权重值。网站的数量远小于网页数量，重要的网页必须从这些网站主页链接。因此，采集任务应该优先获取尽可能多的网站主页。

　　结果显示在此处。搜索引擎第一次抓取网页的时候，他既不知道被链接网页的状态，也不知道转载的状态，也就是说，一开始他不知道接下来三个项目的特征。，这些元素只有在获得网页或者几乎所有的网页链接结构后才能知道。那么如何处理这个结果呢？即在爬行的时候就可以知道特征4和特征5。只要特征4不需要知道网页的内容（在网页被抓取之前），就可以判断某个URL是否可能符合“重要”规范，以及深度的计算网页的 URL 目录是对字符串的处理。统计结果表明，普通URL长度小于256个字符，便于完成对URL目录深度的判断。因此，在采集策略上，特征4和特征5是最值得考虑的。但是，功能 4 和功能 5 有局限性，因为链接的深度并不能完全表明此页面的重要性。那么如何处理这个分数呢？搜索引擎使用以下方法：那么如何处理这个分数呢？搜索引擎使用以下方法：那么如何处理这个分数呢？搜索引擎使用以下方法：

　　1) URL权重设置：根据URL的目录深度确定，深度越大权重越大，权重至少为零。2) 将初始 URL 权重设置为固定值。

　　3) 如果 URL 中出现一次字符“/”、“?”或“&”，则权重将减少一个值，如果“搜索”、“代理”或“门”出现一次，权重将减少一个值；最多减少到零。（包括”？”，

　　带有或“&”的 URL 是参数化方法。需要通过被请求方的有序服务获取网页。搜索引擎系统关注的不是静态网页，因此权重相应降低。包括“搜索”、“代理”或“门”，以说明该页面可以是搜索引擎的结果页面，代理页面，因此应降低权重）。4) 为未访问的 URL 选择策略。既然权重小，就不用澄清不重要了，所以有必要

　　给予一定的机会来采集权重较小的未访问过的 URL。选择未访问的URL的策略可以轮流停止，一次按权重顺序，一次随机；也许N次随机选择。当搜索引擎抓取少量网页时，它会进入一个阶段，它停止对网页的以下三个特征的解释，然后使用少量的算法来判断网页的质量，然后给出一个绝对排名。

0

2021-10-27

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎好的搜集战略是优先搜集重要的网页，他们并不是平行的抓取)

0 个评论

发起人