基于大数据提取模式的网页文章采集器的应用方法

优采云 发布时间: 2021-05-10 19:01

  基于大数据提取模式的网页文章采集器的应用方法

  关键字文章采集器一般的所谓采集,都是常见的http的文章采集工具,功能基本都是完全独立的,因为流量少,又没有对其他站点的依赖性。举个例子,urllib是python基础,scrapy是web框架,采集则是寻找目标页面及其正则表达式。准确说,应该是urllib代替了scrapy,基于scrapy设计urllib接口,通过urllib实现scrapy请求池。

  这种接口本身对爬虫来说是透明的,所以这种接口通常说是urllib.request()接口。另外一些接口基于分布式架构设计,这个处理方式和http站点结构的复杂和以scrapy为框架的站点架构有很大区别。这种接口是接口层。后者是服务层。urllib和scrapy两者是同一个站点内容为产品的两套系统,但本质是类似的。

  因为urllib和scrapy只是设计思路很相似,其中的内容都是不同类型的网页。scrapy采用大数据提取模式实现http提取的,爬虫体系是一个*敏*感*词*的架构。就是站点服务层代理整个站点发送的http请求,真正实现数据的提取,存放功能。比如有两个站点,一个站点只允许向浏览器发出请求,一个站点允许通过baidu引擎向外部发出请求。

  这时候都是通过urllib,scrapy爬虫系统去实现各自的功能。如果说想使用工具做系统内爬虫,爬虫系统不局限于一个站点或一种服务,它其实可以基于任何服务。比如worker,事实上worker对某些网页源代码进行了封装和修改,就能达到独立爬虫的功能。系统的网页提取从最基础的概念出发,划分三种:。

  1、网页中包含内容的读取,所以需要webhook来实现,对每个站点,对于请求url的一部分来说,是完全封装起来,处理成web的工作模式。

  2、网页的解析,需要一个parser,网页解析的网络请求,基本都是使用urllib.request.urlopen系统做的。

  3、网页中的内容提取,这个才是爬虫的最终目的,所以才需要mongodb,redis等作为后端服务,作为数据存储。这个就是scrapy的技术路线,比如中间件在采集的时候使用各种高阶的技术,比如redis,aof,缓存等。数据提取本身无意义,因为大部分搜索引擎都有内置的spider。爬虫系统的设计重点其实是crud操作,是真正的循环操作。目前很多搜索引擎都有代理线程,就是对爬虫每个阶段提供一个web界面给搜索引擎后端使用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线