php 爬虫抓取网页数据(1.通用网络爬虫的实现原理及过程简要分析算法概括)

优采云 发布时间: 2021-11-10 05:15

  php 爬虫抓取网页数据(1.通用网络爬虫的实现原理及过程简要分析算法概括)

  网络爬虫的原理:爬虫根据一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接,放入URL队列等待被抓取。然后,它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址,并重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤和索引,以供以后查询检索;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。

  一个通用的网络爬虫的框架如图所示:

  

  不同类型的网络爬虫有不同的实现原理,但是这些实现原理之间会有很多共性。这里我们以两个典型的网络爬虫为例(即通用网络爬虫和聚焦网络爬虫)来讲解网络爬虫的实现原理。

  1. 通用网络爬虫

  首先我们来看一下一般的网络爬虫的实现原理。一般网络爬虫的实现原理和过程可以简单概括如图:

  

  2. 专注于网络爬虫

  专注于网络爬虫,因为它们需要有目的地爬取,所以对于一般的网络爬虫,需要增加目标的定义和过滤机制。具体来说,这时候它的执行原理和流程比一般的网络爬虫需要的多。分为三个步骤,分别是目标的定义、无关链接的过滤、下一步要爬取的URL地址的选择等,如图:

  

  网络爬虫是一种自动提取网页的程序。它从万维网下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。传统爬虫从一个或多个初始网页的网址开始,获取初始网页上的网址,在网页抓取过程中不断从当前页面中提取新的网址放入队列中,直到某个停止条件系统的满足。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线