搜索引擎如何抓取网页(搜索引擎好的搜集策略是优先搜集最重要的网页?)

优采云发布时间: 2021-09-26 01:27

　　项目招商找A5快速获取精准代理商名单

　　搜索引擎面对大量的网页。他们不会并行抓取每个网页，因为无论搜索引擎数据库如何扩展，他们都跟不上网页的增长速度。搜索引擎将首先抓取最重要的网页。保存数据库对普通用户也有帮助，因为对于用户来说，他们不需要海量的结果，只需要最重要的结果。因此，一个好的采集策略是先采集重要的网页，让最重要的网页在最短的时间内被抓取。

　　那么搜索引擎如何首先抓取最重要的网页呢？

　　通过对海量网页特征的分析，搜索引擎认为重要网页具有以下基本特征。尽管它们可能不完全准确，但大多数情况下都是正确的：

　　1) 一个网页被其他网页链接的特征。如果被多次链接或被重要网页链接，则是非常重要的网页；

　　2) 一个网页的父网页已被多次链接或被重要网页链接。例如，一个网页是网站的内页，但是它的首页被链接了很多次，首页也被链接了，如果这个页面被贴出来，说明这个页面也更重要；

　　3) 网页内容已被广泛转载和传播。

　　4) 网页目录深度小，方便用户浏览。“网址目录深度”的定义是：网页网址除域名外的目录级别，即如果网址为，则目录深度为0；如果是，则目录深度为 1，依此类推。需要注意的是，URL 目录深度小的网页并不总是重要的，目录深度大的网页也并非完全不重要。一些学术论文的 URL 有很长的目录深度。大多数重要的网页都会同时具备以上四个特征。

　　5)优先采集网站首页，并赋予首页较高的权重值。网站的数量远小于网页的数量，重要的网页必须从这些网站主页链接。因此，采集工作应优先获取尽可能多的网站主页。

　　那么这个问题就出现了。当搜索引擎开始抓取网页时，它可能不知道被链接或转载的网页的状态。也就是说，他一开始并不知道前三件物品的特点。，这些因素只有在获得网页或几乎所有的网页链接结构后才能知道。那么如何解决这个问题呢？也就是特征4和特征5在爬行的时候是可以知道的，只有特征4是可以在不知道网页内容的情况下判断一个URL是否一致（在网页被抓取之前）“重要”标准，以及计算网页的URL目录的深度就是对字符串的处理。统计结果显示，一般URL长度小于256个字符，这使得对URL目录深度的判断很容易实现。因此，特征 4 和特征 5 是确定采集策略的最有价值的指导因素。

　　但是，功能 4 和功能 5 有局限性，因为链接的深度并不能完全表明此页面的重要性。那么如何解决这个问题呢？搜索引擎使用以下方法：

　　1) URL权重设置：根据URL目录的深度确定。权重与深度一样减少，最小权重为零。

　　2) 将初始 URL 权重设置为固定值。

　　3) 如果 URL 中出现“/”、“?”或“&”字符一次，则权重减一，

　　如果“搜索”、“代理”或“门”显示一次，则权重减一；最多，它会减少到零。（包括”？”，

　　URL或“&”为参数形式，网页需要通过被请求方的程序服务获取。搜索引擎系统关注的不是静态网页，因此权重相应降低。收录“搜索”、“代理”或“门”，表示该网页最有可能是搜索引擎检索到的结果页或代理页，因此应降低权重）。

　　4) 选择不访问URL的策略。因为重量小并不一定不重要，所以有必要

　　给予一定的机会来采集权重较小的未访问过的 URL。选择未访问URL的策略可以采用轮询的方式进行，一次根据权重值选择，一次随机选择；或N次随机选择。

　　当搜索引擎爬取大量网页时，进入以前三个特征判断网页的阶段，然后通过大量算法判断网页的质量，然后给出相对排名.

　　本文由51荷叶茶站长提供原创

　　申请创业报告，分享创业好点子。点击此处，共同探讨创业新机遇！

0

2021-09-26

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎好的搜集策略是优先搜集最重要的网页?)

0 个评论

发起人