网站程序自带的采集器采集文章( Python爬虫文章入门另一个强大的框架Scrapy文章！)

优采云发布时间: 2022-03-27 12:01

　　网站程序自带的采集器采集文章(

Python爬虫文章入门另一个强大的框架Scrapy文章！)

　　大家好，我是菜鸟兄弟！

　　分享了很多请求，selenium 的 Python 爬虫文章，本文将带你从原理到实战另一个强大的框架 Scrapy。如果你对 Scrapy 感兴趣，不妨跟着这篇文章去做吧！

　　一、Scrapy 框架介绍

　　Scrapy 是：一个快速、高级的屏幕抓取和网页抓取框架，由 Python 语言开发，用于抓取网站并从页面中提取结构化数据。只需实现少量代码，即可快速抓取。

　　二、运行原理

　　Scrapy框架的运行原理看下图就够了（其实原理比较复杂，几句话说不清楚，感兴趣的读者可以阅读更多相关的文章来了解，这个文章不解释太多）

　　Scrapy主要包括以下组件：

　　三.入门3.1 安装

　　第一种：在命令行模式下使用pip命令安装：

　　$ pip install scrapy

　　第二种：先下载，再安装：

　　$ pip download scrapy -d ./

# 通过指定国内镜像源下载

$pip download -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy -d ./

　　进入下载目录后，执行以下命令进行安装：

　　$ pip install Scrapy-1.5.0-py2.py3-none-any.whl

　　3.2使用

　　1.) 使用大致分为以下四个步骤 1 创建一个scrapy项目

　　scrapy startproject mySpider

　　2.) 生成爬虫

　　scrapy genspider demo "demo.cn"

　　3.) 提取数据

　　完善spider 使用xpath等

　　4.) 保存数据

　　pipeline中保存数据

　　3.3 程序运行

　　在命令中运行爬虫

　　scrapy crawl qb # qb爬虫的名字

　　在pycharm中运行爬虫

　　from scrapy import cmdline

cmdline.execute("scrapy crawl qb".split())

　　四、基本步骤

　　Scrapy爬虫框架的具体使用步骤如下：

　　"

　　选择目标网站

　　定义要抓取的数据（通过 Scrapy Items）

　　编写一个提取数据的蜘蛛

　　执行爬虫获取数据

　　数据存储

　　"

　　五. 目录文件说明

　　我们在创建scrapy项目时，继续创建spider，目录结构如下：

　　下面简单介绍一下各个主文件的作用：

　　"

　　scrapy.cfg ：项目的配置文件

　　mySpider/ ：项目的 Python 模块，将从中引用代码

　　mySpider/items.py ：项目的目标文件

　　mySpider/pipelines.py ：项目的管道文件

　　mySpider/settings.py ：项目的设置文件

　　mySpider/spiders/ : 蜘蛛代码存放的目录

　　"

　　5.1个scrapy.cfg文件

　　项目配置文件。这是文件的内容：

　　# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]

default = mySpider.settings

[deploy]

#url = http://localhost:6800/

project = mySpider

　　5.2 mySpider**/**

　　项目的 Python 模块，从中引用代码

　　5.3 mySpider/items.py

　　项目目标文件

　　# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class MyspiderItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

pass

　　一个定义scrapy项目的模块，例如：name = scrapy.Field()

　　5.4 mySpider/pipelines.py

　　项目的管道文件

　　# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

# useful for handling different item types with a single interface

from itemadapter import ItemAdapter

class MyspiderPipeline:

def process_item(self, item, spider):

return item

　　这个文件就是我们所说的管道。在Spider中采集到Item后，会传递给Item Pipeline（管道），这些Item Pipeline组件按照定义的顺序处理这些Item。每个 Item Pipeline 都是一个 Python 类，它实现了简单的方法，例如决定是否应该丢弃和存储这个 Item。以下是item pipeline的一些典型应用：

　　5.5 mySpider/settings.py

　　项目设置文件

　　# Scrapy settings for mySpider project

...

BOT_NAME = 'mySpider' # scrapy项目名

SPIDER_MODULES = ['mySpider.spiders']

NEWSPIDER_MODULE = 'mySpider.spiders'

.......

# Obey robots.txt rules

ROBOTSTXT_OBEY = False # 是否遵守协议,一般给位false,但是创建完项目是是True,我们把它改为False

# Configure maximum concurrent requests performed by Scrapy (default: 16)

#CONCURRENT_REQUESTS = 32 # 最大并发量默认16

......

#DOWNLOAD_DELAY = 3 # 下载延迟 3秒

# Override the default request headers: # 请求报头,我们打开

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

# 爬虫中间件

#SPIDER_MIDDLEWARES = {

# 'mySpider.middlewares.MyspiderSpiderMiddleware': 543,

#}

# 下载中间件

#DOWNLOADER_MIDDLEWARES = {

# 'mySpider.middlewares.MyspiderDownloaderMiddleware': 543,

#}

......

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

#ITEM_PIPELINES = {

# 'mySpider.pipelines.MyspiderPipeline': 300, # 管道

#}

.......

　　省略号省略代码，一般重点，并给出注释

　　6.mySpider/spiders/ : 蜘蛛代码存放的目录

　　import scrapy

class DbSpider(scrapy.Spider):

name = 'db'

allowed_domains = ['douban.com'] # 可以修改

start_urls = ['http://douban.com/'] # 开始的url也可以修改

def parse(self, response):

# pass

　　六. 爬虫壳

　　Scrapy 终端是一个交互式终端。我们可以在不启动蜘蛛的情况下尝试调试代码。也可以用来测试 XPath 或者 CSS 表达式，看看它们是如何工作的，方便从我们爬取的网页中提取数据，但是一般用的不多。有兴趣可以查看官方文档：

　　官方文档

　　Scrapy Shell 会根据下载的页面自动创建一些方便的对象，例如 Response 对象，Selector 对象（用于 HTML 和 XML 内容）。

　　选择器选择器

　　"

　　Scrapy Selectors 内置 XPath 和 CSS Selector 表达机制

　　"

　　Selector有四种基本方法，最常用的是xpath：

　　七、*敏*感*词*实战

　　本节以使用Scrapy爬取站酷数据为例

　　7.1 案例说明

　　现在我们已经对scrapy的工作流程和原理有了初步的了解，下面我们来做一个入门的小案例，爬取酷炫首页推荐的物品信息。如下图所示，一个小方框是物品信息。我们要提取每个项目的六个组成部分：

　　imgLink（封面图片链接）；标题（标题）；类型（类型）；访问者（人气）；评论（评论数量）；喜欢（推荐人的数量）

　　那么它只是一个页面的一项，我们还需要通过翻页来实现批量数据采集。

　　7.2文件配置目录结构

　　在上一篇文章中，我们解释了新的scrapy项目（zcool）和spider项目（zc），这里不再赘述，然后得到我们的目录结构如下图所示：

　　启动.py 文件

　　然后为了方便操作，在zcool目录下新建一个启动文件。并初始化设置。

　　from scrapy import cmdline

cmdline.execute('scrapy crawl zc'.split())

　　设置.py 文件

　　在这个文件中，我们需要进行一些设置

　　避免在程序运行时打印日志日志信息

　　LOG_LEVEL = 'WARNING'

　　ROBOTSTXT_OBEY = False

　　添加请求头：

　　打开管道：

　　项目.py 文件

　　import scrapy

class ZcoolItem(scrapy.Item):

# define the fields for your item here like:

imgLink = scrapy.Field() # 封面图片链接

title = scrapy.Field() # 标题

types = scrapy.Field() # 类型

vistor = scrapy.Field() # 人气

comment = scrapy.Field() # 评论数

likes = scrapy.Field() # 推荐人数

　　7.3 页数据提取

　　首先，我们在站酷页面上用xpath-helper进行测试：

　　然后在zc.py文件中做一个初步测试：

　　def parse(self, response):

divList = response.xpath('//div[@class="work-list-box"]/div')

print(len(divList))

　　运行结果如下图所示：

　　没有问题，然后我们分别解析提取各种信息，

　　def parse(self, response):

divList = response.xpath('//div[@class="work-list-box"]/div')

for div in divList:

imgLink = div.xpath("./div[1]/a/img/@src").extract()[0] # 1.封面图片链接

... 2.title(标题）;3 types（类型）;4vistor（人气）;5comment（评论数） ....

likes = div.xpath("./div[2]/p[3]/span[3]/@title").extract_first() # 6likes（推荐人数）

item = ZcoolItem(imgLink=imgLink,title=title,types=types,vistor=vistor,comment=comment,likes=likes)

yield item

　　说明：xpath提取数据方法：

　　序列号

　　方法和说明

　　提炼（）

　　返回的是所有符合要求的数据，存储在一个列表中。

　　extract_first()

　　返回的 hrefs 列表中的第一个数据。

　　得到（）

　　与 extract_first() 方法返回的相同，即列表中的第一个数据。

　　得到所有（）

　　和 extract() 方法一样，所有符合要求的数据都会返回并存储在一个列表中。

　　注意：

　　"

　　get() 和 getall() 方法是新方法，而 extract() 和 extract_first() 方法是旧方法。如果无法检索 extract() 和 extract_first() 方法，则返回 None。如果无法检索到 get() 和 getall() 方法，则会引发错误。

　　"

　　项目实例创建（产生上面的代码行）

　　这里我们已经在之前目录文件中配置的item文件中进行了设置。对于数据存储，我们需要在爬虫文件开头导入这个类：

　　from zcool.items import ZcoolItem

　　然后使用yield返回数据。

　　为什么使用yield而不是return

　　毫无疑问不能使用return，因为要翻页，使用return直接退出函数；而对于yield：调用时，函数不会立即执行，而是返回一个*敏*感*词*对象。迭代时函数开始执行，yield时返回当前值(i)。之后的这个函数将循环执行，直到没有下一个值。

　　7.4 翻页实现批量数据采集

　　数据采集可以通过上面的代码初步实现，但是只能在第一页，如下图所示：

　　但是我们的目标是100页的batch data采集，所以还是需要修改代码。翻页有两种方式：

　　方法一：我们先在页面中定位到下一页的按钮，如下图：

　　然后在 for 循环结束后编写以下代码。

　　next_href = response.xpath("//a[@class='laypage_next']/@href").extract_first()

if next_href:

next_url = response.urljoin(next_href)

print('*' * 60)

print(next_url)

print('*' * 60)

request = scrapy.Request(next_url)

yield request

　　scrapy.Request()：将下一页的url传递给Request函数，进行翻页循环数据采集。

　　https://www.cnblogs.com/heymonkey/p/11818495.html # scrapy.Request()参考链接

　　注意第一种方法只有在下一页按钮的href对应属性值与下一页的url相同的情况下才有效。

　　方法二：定义一个全局变量count = 0，每爬取一页数据加一个，新建一个url，然后使用scrapy.Request()发起请求。

　　如下所示：

　　count = 1

class ZcSpider(scrapy.Spider):

name = 'zc'

allowed_domains = ['zcool.com.cn']

start_urls = ['https://www.zcool.com.cn/home?p=1#tab_anchor'] # 第一页的url

def parse(self, response):

global count

count += 1

for div in divList:

# ...xxx...

yield item

next_url = 'https://www.kuaikanmanhua.com/tag/0?state=1&sort=1&page={}'.format(count)

yield scrapy.Request(next_url)

　　这两种方法在实际情况下是有选择地使用的。

　　7.5 数据存储

　　数据存储在pipline.py中进行，代码如下：

　　from itemadapter import ItemAdapter

import csv

class ZcoolPipeline:

def __init__(self):

self.f = open('Zcool.csv','w',encoding='utf-8',newline='') # line1

self.file_name = ['imgLink', 'title','types','vistor','comment','likes'] # line2

self.writer = csv.DictWriter(self.f, fieldnames=self.file_name) # line3

self.writer.writeheader() # line4

def process_item(self, item, spider):

self.writer.writerow(dict(item)) # line5

print(item)

return item # line6

def close_spider(self,spider):

self.f.close()

　　解释：

　　7.6 程序运行

　　因为 start.py 文件是较早创建并用它初始化的，所以现在运行爬虫不需要在控制台中输入命令：

　　scrapy crawl zc(爬虫项目名)

　　直接运行start.py文件：得到如下结果：

　　对应页面：

　　打开csv文件如下图：（因为csv文件是word乱码，这里我用Notepad++打开）

　　没问题，数据采集完成。

　　7.7. 总结

　　入门案例需要认真关注，主要是巩固基础知识，为进阶学习做准备。

0

2022-03-27

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站程序自带的采集器采集文章( Python爬虫文章入门另一个强大的框架Scrapy文章！)

0 个评论

发起人

AI时代内容工厂

网站程序自带的采集器采集文章( Python爬虫文章入门另一个强大的框架Scrapy文章！)

0 个评论

发起人

相关问题