scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)
优采云 发布时间: 2022-02-18 09:04scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)
介绍
开发环境为 Python3.6, Scrapy 版本2.4.x , Gerapy 版本0.9.x , 所有爬虫项目的index目录
本系列内容作为规范爬虫的指南,为广大爬虫工程师分享爬虫工作经验,用作者自己的经验了解Python3的爬虫工作心得。
Environment 搭建window系统环境
安装 Anaconda
Anaconda 指的是一个开源的 Python 发行版,其中收录 N 多个科学包,例如 Python 和 conda 及其依赖项。简单理解为傻瓜的python包。
蟒蛇下载地址
由于笔者买不起Apple系列电脑,这里以win系统安装为例(Linux必须是图形界面的操作系统,如Ubuntu系统)
打开安装程序后,继续单击下一步。
安装结束,点击关闭,然后打开命令行CMD,出现下图证明安装成功。
安装 Pycharm
社区版 & 专业版 Pycharm 下载地址
下载后根据自己的情况选择压缩包。
在如图所示的位置启动程序。
安装 Scrapy
pip install scrapy==2.4.0
Linux系统环境
以腾讯云的 Centos 7.x 版本为例。其他版本的系统略有不同。如果您有任何安装问题,您可以留言。
Python3安装
'''安装必备包'''
yum groupinstall 'Development Tools'
yum install -y ncurses-libs zlib-devel mysql-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
yum -y install gcc
'''下载python3.6.5'''
cd /usr/local/
wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tar.xz
'''解压'''
tar -xf Python-3.6.5.tar.xz
mkdir python3
mv Python-3.6.5 python3
cd python3/Python-3.6.5
./configure --prefix=/usr/local/python3 --enable-optimizations
make
make altinstall
'''修改软连接'''
ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3
ln -s /usr/local/python3/bin/pip3.6 /usr/bin/pip3
'''删除软连接,如果设置软连接出错使用'''
rm -rf /usr/bin/python3
rm -rf /usr/bin/pip3
'''检查是否安装版本正确'''
python3 --version
安装 Scrapy
pip3 install scrapy==2.4.0
Scrapy爬虫框架
Scrapy,一个用 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站并从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。
它最初是为页面抓取(更准确地说是网页抓取)而设计的,后台也用于获取API或一般网络爬虫返回的数据。
要了解学习所有 Scrapy 模块,请点击传送门
[scrapy 2.4.0 文章目录]源码分析:所有配置目录索引
数据采集流程概览
调度器:假设它是一个 URL 的优先队列(爬取网页的网站或链接),让它决定下一个要爬取的 URL,同时去除重复的 URL(不做无用的工作)。用户可以根据自己的需要自定义调度器。
下载器(Downloader):所有组件中最繁重的,它用于在网络上高速下载资源。Scrapy 的下载器代码并不太复杂,但是效率很高。主要原因是Scrapy下载器是建立在twisted的高效异步模型之上的(其实整个框架都是建立在这个模型之上的)。
爬虫(Spider):用户定制自己的爬虫(通过自定义正则表达式等语法),从特定的网页中提取自己需要的信息,即所谓的实体(Item)。用户还可以从中提取链接,让 Scrapy 继续爬取下一页。
项目管道:用于处理蜘蛛提取的实体。主要功能是持久化实体,验证实体的有效性,清除不必要的信息。
Scrapy引擎(Scrapy Engine):Scrapy引擎是整个框架的核心。它用于控制调试器、下载器和爬虫。实际上,引擎相当于计算机的CPU,它控制着整个过程。