c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法 )
优采云 发布时间: 2021-10-06 00:04c爬虫抓取网页数据(1.Scrapy框架介绍.cfg运行流程及使用方法
)
1.scrapy框架简介
Scrapy是一个用于捕获网站和提取结构化数据的应用程序框架。它可以用于各种有用的应用,如数据挖掘、信息处理或历史归档
尽管最初设计用于web爬行,但scrapy也可以使用API或作为通用web爬行器来提取数据
1.1为什么使用scripy1.2 scrapy的特性1.3 scrapy的优点1.4 scrapy的操作过程大致如下:
引擎从调度程序获取一个链接(URL)用于下一次爬网
引擎将URL封装到请求中,并将其发送到下载程序
下载程序下载资源并将其封装到响应中
爬虫解析响应
实体(项目)解析后,将其移交给实体管道进行进一步处理
如果对链接(URL)进行了解析,则会将URL移交给调度程序进行抓取
1.5scrapy主要包括以下部件:
调度程序
下载器
蜘蛛
项目管道
下载中间件
蜘蛛中间件
调度程序中间件
2安装
pip install Scrapy
注意:Windows平台依赖于pywin32
ModuleNotFoundError: No module named 'win32api'
pip install pypiwin32
3创建项目的基本用法3.1
命令:
scrapy startproject 项目名称
文件说明:
名字
作用
刮痧
项目的配置信息主要提供scripy命令行工具的基本配置信息。(与真实爬虫程序相关的配置信息位于settings.py文件中)
items.py
为结构化数据(如Django的模型)设置数据存储模板
管道
数据处理行为,如一般结构化数据持久性
设置.py
配置文件,如递归层、并发、延迟下载等
蜘蛛
爬虫目录,如创建文件和编写爬虫规则
3.2创建爬虫目录
scrapy genspider 爬虫名 爬虫的地址
注意:在项目的根目录中执行
内容描述:
名字
它定义了爬行器的唯一名称
允许的域
它收录爬行器爬网的基本URL
起始URL
爬行器开始爬行的URL列表
parse()
这是提取和解析刮取数据的方法
3.3爬虫程序运行命令
scrapy crawl 爬虫名
4数据提取
选择器有四种基本方法,如下所示
描述
extract()、getall()
它返回一个Unicode字符串和所选数据
extract_uuFirst()、get()
它返回第一个Unicode字符串和所选数据
re()
它返回一个Unicode字符串列表,当正则表达式作为参数给定时提取该字符串
xpath()
它返回一个选择器列表,这些选择器表示由指定的XPath表达式参数选择的节点
css()
它返回一个选择器列表,这些选择器表示指定CSS表达式作为参数选择的节点
5数据保存5.1 Python本机保存
with open('文件名.txt','w') as f:
f.write()
5.2扫描的内置方法
有四种类型的内置scratch:JSON、CSV和XML
scrapy crawl spider_name -o 保存文件类型xxx.json xxx.txt xxx.csv xxx.xml
FEED_EXPORT_ENCODING = 'UTF-8' 如果到处的格式是json,可以使用这个参数