搜索引擎蜘蛛(spider)的工作过程大体上可以分成三个阶段
优采云 发布时间: 2021-04-29 07:27搜索引擎蜘蛛(spider)的工作过程大体上可以分成三个阶段
搜索引擎的工作过程大致可以分为三个阶段。
([1)爬行和爬行:搜索引擎蜘蛛通过跟踪链接访问网页,并获取页面的HTML代码并将其存储在数据库中。
([2)预处理:索引程序对爬网的页面数据执行文本提取,中文分词,索引和其他处理,以准备要调用的排名程序。
([3)排名:用户输入关键词后,排名程序将调用索引库数据,计算相关性,然后以某种格式生成搜索结果页面。
爬行和爬行
爬行和爬行是搜索引擎工作的第一步,完成了数据采集的任务。
1。蜘蛛
搜索引擎用来抓取和访问页面的程序称为蜘蛛程序,也称为机器人程序。
搜索引擎蜘蛛访问网站页面的方式与普通用户使用的浏览器类似。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,并且蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高抓取和抓取速度,搜索引擎使用多个蜘蛛来同时分发抓取。
当蜘蛛访问任何网站时,它将首先访问网站根目录中的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,则抓取工具将遵守协议,并且不会抓取禁止的URL。
与浏览器一样,搜索引擎蜘蛛也具有标识自己的代理名称。网站管理员可以在日志文件中查看搜索引擎的特定代理名称,以识别搜索引擎蜘蛛。下面列出了常见的搜索引擎蜘蛛的名称:
·Baiduspider +(+)百度蜘蛛
·Mozilla / 5. 0(兼容; Yahoo!Slurp中国;)Yahoo China蜘蛛
·Mozilla / 5. 0(兼容; Yahoo!Slurp / 3. 0;)英语Yahoo spider
·Mozilla / 5. 0(兼容; Googlebot / 2. 1; +)Google蜘蛛
·msnbot / 1. 1(+)Microsoft Bing蜘蛛
·Sogou + web + robot +(+#0 7) Sogou蜘蛛
·Sosospider +(+)搜索蜘蛛
·Mozilla / 5. 0(兼容; YodaoBot / 1. 0 ;;)游道蜘蛛
2。跟踪链接
为了在网络上尽可能多地爬网,搜索引擎蜘蛛将跟随页面上的链接并从一个页面爬到下一页,就像在蜘蛛网上爬行的蜘蛛一样。这就是名称搜索引擎Spider的起源。
整个Internet由网站和彼此链接的页面组成。从理论上讲,爬虫从任何页面开始,并通过链接爬网到Internet上的所有页面。当然,由于网站和页面链接的结构极其复杂,蜘蛛需要采取某些爬网策略来遍历Internet上的所有页面。
最简单的爬网遍历策略分为两种,一种是深度优先,另一种是广度优先。
所谓的“深度优先”是指蜘蛛沿着找到的链接向前爬行,直到前面没有更多的链接,然后返回到第一页,然后沿着另一个链接向前爬行。
如图2-20所示,蜘蛛程序跟踪链接,从A页爬到A1,A2,A3,A4页,到达A4页后,没有其他链接可循,然后返回到A页,请按照页面A链接上的其他页面进行抓取,然后抓取到B1,B2,B3,B4。在“深度优先”策略中,蜘蛛会爬升,直到无法再向前移动,然后再爬回另一条线为止。
第一宽度意味着蜘蛛在页面上找到多个链接时,不会一直跟踪链接,而是会爬行页面上的所有第一级链接,然后跟随第二级页面。链接将爬网到第三级页面。
如图2-21所示,爬网沿着从A页到A1,B1和C1页的链接进行爬网,直到A页上的所有链接都被爬网,然后再从A1页中找到下一级的链接,爬到A2,A3,A4等页面。
图2-20深度优先遍历策略
图2-21广度优先遍历策略
从理论上讲,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它们就可以爬网整个Internet。在实际工作中,爬虫的带宽资源和时间不是无限的,并且不可能爬网所有页面。实际上,最大的搜索引擎只是爬网而已,只是互联网的一小部分。
深度优先和宽度优先通常会混合在一起,以便尽可能多地处理网站(宽度优先)以及网站内页的一部分(深度优先)。
3。吸引蜘蛛
可以看出,尽管理论上蜘蛛可以爬网和爬网所有页面,但实际上它们不能也不会这样做。如果SEO人员希望他们的页面更多收录,他们必须找到吸引蜘蛛爬行的方法。由于并非所有页面都可以被爬网,因此蜘蛛程序要做的就是尽可能地爬网重要页面。哪些页面被认为更重要?有几个影响因素。
1、 网站和页面粗细。具有较高质量和较高资历的网站被认为具有较高的权重,并且网站上的页面爬网深度也将更高,因此,更多的内部页面将为收录。
2、页面更新率。蜘蛛每次爬网时,都会存储页面数据。如果第二次爬网发现该页面与第一个收录完全相同,则意味着该页面尚未更新,因此不需要蜘蛛频繁地爬网。如果页面的内容经常更新,则Spider会更频繁地访问此页面,并且Spider会自然地更快地跟踪页面上出现的新链接并抓取新页面。
3、导入链接。无论是外部链接还是相同的内部链接网站,为了被蜘蛛抓取,必须有一个导入链接才能进入该页面,否则,蜘蛛就没有机会知道该页面的存在。 。高质量的导入链接通常还会增加页面上导出链接的深度。
4、单击距主页的距离。一般而言,首页在网站上的权重最高,大多数外部链接均指向首页,并且首页是蜘蛛最常访问的页面。您越接近首页,页面的权重就越高,被蜘蛛爬行的机会就越大。
4。地址库
为了避免重复爬网和URL爬网,搜索引擎将构建一个地址库,以记录已发现未被爬网的页面和已被爬网的页面。