c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法 )

优采云发布时间: 2021-10-06 00:04

　　c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法

)

　　1.scrapy框架简介

　　Scrapy是一个用于捕获网站和提取结构化数据的应用程序框架。它可以用于各种有用的应用，如数据挖掘、信息处理或历史归档

　　尽管最初设计用于web爬行，但scrapy也可以使用API或作为通用web爬行器来提取数据

　　1.1为什么使用scripy1.2 scrapy的特性1.3 scrapy的优点1.4 scrapy的操作过程大致如下：

　　引擎从调度程序获取一个链接（URL）用于下一次爬网

　　引擎将URL封装到请求中，并将其发送到下载程序

　　下载程序下载资源并将其封装到响应中

　　爬虫解析响应

　　实体（项目）解析后，将其移交给实体管道进行进一步处理

　　如果对链接（URL）进行了解析，则会将URL移交给调度程序进行抓取

　　1.5scrapy主要包括以下部件：

　　调度程序

　　下载器

　　蜘蛛

　　项目管道

　　下载中间件

　　蜘蛛中间件

　　调度程序中间件

　　2安装

　　pip install Scrapy

　　注意：Windows平台依赖于pywin32

　　ModuleNotFoundError: No module named 'win32api'

　　pip install pypiwin32

　　3创建项目的基本用法3.1

　　命令：

　　scrapy startproject 项目名称

　　文件说明：

　　名字

　　作用

　　刮痧

　　项目的配置信息主要提供scripy命令行工具的基本配置信息。（与真实爬虫程序相关的配置信息位于settings.py文件中）

　　items.py

　　为结构化数据（如Django的模型）设置数据存储模板

　　管道

　　数据处理行为，如一般结构化数据持久性

　　设置.py

　　配置文件，如递归层、并发、延迟下载等

　　蜘蛛

　　爬虫目录，如创建文件和编写爬虫规则

　　3.2创建爬虫目录

　　scrapy genspider 爬虫名爬虫的地址

　　注意：在项目的根目录中执行

　　内容描述：

　　名字

　　它定义了爬行器的唯一名称

　　允许的域

　　它收录爬行器爬网的基本URL

　　起始URL

　　爬行器开始爬行的URL列表

　　parse（）

　　这是提取和解析刮取数据的方法

　　3.3爬虫程序运行命令

　　scrapy crawl 爬虫名

　　4数据提取

　　选择器有四种基本方法，如下所示

　　描述

　　extract（）、getall（）

　　它返回一个Unicode字符串和所选数据

　　extract_uuFirst（）、get（）

　　它返回第一个Unicode字符串和所选数据

　　re（）

　　它返回一个Unicode字符串列表，当正则表达式作为参数给定时提取该字符串

　　xpath（）

　　它返回一个选择器列表，这些选择器表示由指定的XPath表达式参数选择的节点

　　css（）

　　它返回一个选择器列表，这些选择器表示指定CSS表达式作为参数选择的节点

　　5数据保存5.1 Python本机保存

　　with open('文件名.txt','w') as f:

f.write()

　　5.2扫描的内置方法

　　有四种类型的内置scratch：JSON、CSV和XML

　　scrapy crawl spider_name -o 保存文件类型xxx.json xxx.txt xxx.csv xxx.xml

FEED_EXPORT_ENCODING = 'UTF-8' 如果到处的格式是json，可以使用这个参数

0

2021-10-06

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法 )

0 个评论

发起人