scrapy分页抓取网页(网络爬虫(Webcrawler)用python编写的Scrapy框架介绍 )

优采云 发布时间: 2022-01-21 01:13

  scrapy分页抓取网页(网络爬虫(Webcrawler)用python编写的Scrapy框架介绍

)

  网络爬虫是一种程序或脚本,它根据一定的规则自动爬取万维网上的信息。它们广泛用于互联网搜索引擎或其他类似的网站,它可以自动采集它可以访问的所有页面获取这些网站的内容。Scrapy是一个非常强大的爬虫框架,它是用python编写的。我们来看看什么是Scrapy?

  一、必备知识

  所需知识为:linux系统+Python语言+Scrapy框架+XPath(XML路径语言)+一些辅助工具(浏览器开发工具和XPat 本文来源于gaodai#ma#com @@code~&code network ^h helper plugin )。

  我们的爬虫是使用Python语言的Scrapy爬虫框架开发的,运行在linux上,所以我们需要精通Python语言、Scrapy框架以及linux操作系统的基础知识。

  我们需要使用 XPath 从目标 HTML 页面中提取我们想要的内容,包括中文文本段落和“下一页”链接等。

  浏览器的开发者工具是编写爬虫的主要辅助工具。使用该工具,您可以分析页面链接的规则,在HTML页面中定位您要提取的元素,然后提取它们的XPath表达式用于爬虫代码,还可以查看Referer、Cookie等信息页面请求标头。如果爬取目标是动态的网站,该工具还可以分析其背后的JavaScript请求。

  XPath helper插件是一个chrome插件,也可以安装基于chrome核心的浏览器。XPath 助手可用于调试 XPath 表达式。

  二、环境建设

  要安装 Scrapy,您可以使用 pip 命令: pip install Scrapy

  Scrapy相关的依赖有很多,所以在安装过程中可能会遇到以下问题:

  ImportError:没有名为 w3lib.http 的模块

  解决方案:pip install w3lib

  ImportError:没有名为 twisted 的模块

  解决方法:pip install twisted

  ImportError:没有名为 lxml.HTML 的模块

  解决方法:pip install lxml

  错误:libxml/xmlversion.h:没有这样的文件或目录

  解决方法:apt-get install libxml2-dev libxslt-dev

  apt-get 安装 Python-lxml

  ImportError:没有名为 cssselect 的模块

  解决方案:pip install cssselect

  ImportError:没有名为 OpenSSL 的模块

  解决方案:pip install pyOpenSSL

  建议:

  使用简单的方法:使用 anaconda 安装。

  三、Scrapy 框架

  1. Scrapy 简介

  Scrapy 是一个用 Python 编写的著名爬虫框架。Scrapy 可以非常方便的进行网页抓取,也可以根据自己的需求轻松定制。

  Scrapy的整体架构大致如下:

  2.Scrapy 组件

  Scrapy主要包括以下组件:

  引擎(报废)

  用于处理整个系统的数据流和触发事务(框架核心)。

  调度器

  它用于接受引擎发送的请求,将其推入队列,并在引擎再次请求时返回。它可以被认为是 URL(被爬取的网站或链接)的优先级队列,它决定了下一个请求。抓取的 URL 是什么,同时删除重复的 URL。

  下载器

  用于下载网页内容并将网页内容返回给蜘蛛(Scrapy 下载器建立在 twisted 之上,一种高效的异步模型)。

  蜘蛛

  爬虫主要用于从特定网页中提取它需要的信息,即所谓的实体(Item)。用户还可以从中提取链接,让 Scrapy 继续爬取下一页。

  项目管道

  CodeNet() 提供的所有资源均来自互联网。如侵犯您的著作权或其他权益,请说明详细原因并提供著作权或权益证明,然后发送至邮箱‍,我们会尽快看到邮件处理你,或者直接联系。此网站 由 BY-NC-SA 协议授权

  转载请注明原文链接:什么是强大的爬虫框架Scrapy?

  报酬

  [做代码]

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线