c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法 )

优采云 发布时间: 2021-10-06 00:04

  c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法

)

  1.scrapy框架简介

  Scrapy是一个用于捕获网站和提取结构化数据的应用程序框架。它可以用于各种有用的应用,如数据挖掘、信息处理或历史归档

  尽管最初设计用于web爬行,但scrapy也可以使用API或作为通用web爬行器来提取数据

  1.1为什么使用scripy1.2 scrapy的特性1.3 scrapy的优点1.4 scrapy的操作过程大致如下:

  引擎从调度程序获取一个链接(URL)用于下一次爬网

  引擎将URL封装到请求中,并将其发送到下载程序

  下载程序下载资源并将其封装到响应中

  爬虫解析响应

  实体(项目)解析后,将其移交给实体管道进行进一步处理

  如果对链接(URL)进行了解析,则会将URL移交给调度程序进行抓取

  1.5scrapy主要包括以下部件:

  调度程序

  下载器

  蜘蛛

  项目管道

  下载中间件

  蜘蛛中间件

  调度程序中间件

  2安装

  pip install Scrapy

  注意:Windows平台依赖于pywin32

  ModuleNotFoundError: No module named 'win32api'

  pip install pypiwin32

  3创建项目的基本用法3.1

  命令:

  scrapy startproject 项目名称

  

  

  文件说明:

  名字

  作用

  刮痧

  项目的配置信息主要提供scripy命令行工具的基本配置信息。(与真实爬虫程序相关的配置信息位于settings.py文件中)

  items.py

  为结构化数据(如Django的模型)设置数据存储模板

  管道

  数据处理行为,如一般结构化数据持久性

  设置.py

  配置文件,如递归层、并发、延迟下载等

  蜘蛛

  爬虫目录,如创建文件和编写爬虫规则

  3.2创建爬虫目录

  scrapy genspider 爬虫名 爬虫的地址

  注意:在项目的根目录中执行

  

  

  

  内容描述:

  名字

  它定义了爬行器的唯一名称

  允许的域

  它收录爬行器爬网的基本URL

  起始URL

  爬行器开始爬行的URL列表

  parse()

  这是提取和解析刮取数据的方法

  3.3爬虫程序运行命令

  scrapy crawl 爬虫名

  4数据提取

  选择器有四种基本方法,如下所示

  描述

  extract()、getall()

  它返回一个Unicode字符串和所选数据

  extract_uuFirst()、get()

  它返回第一个Unicode字符串和所选数据

  re()

  它返回一个Unicode字符串列表,当正则表达式作为参数给定时提取该字符串

  xpath()

  它返回一个选择器列表,这些选择器表示由指定的XPath表达式参数选择的节点

  css()

  它返回一个选择器列表,这些选择器表示指定CSS表达式作为参数选择的节点

  5数据保存5.1 Python本机保存

  with open('文件名.txt','w') as f:

f.write()

  5.2扫描的内置方法

  有四种类型的内置scratch:JSON、CSV和XML

  scrapy crawl spider_name -o 保存文件类型xxx.json xxx.txt xxx.csv xxx.xml

FEED_EXPORT_ENCODING = 'UTF-8' 如果到处的格式是json,可以使用这个参数

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线