scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)

优采云发布时间: 2022-02-18 09:04

　　介绍

　　开发环境为 Python3.6, Scrapy 版本2.4.x , Gerapy 版本0.9.x , 所有爬虫项目的index目录

　　本系列内容作为规范爬虫的指南，为广大爬虫工程师分享爬虫工作经验，用作者自己的经验了解Python3的爬虫工作心得。

　　Environment 搭建window系统环境

　　安装 Anaconda

　　Anaconda 指的是一个开源的 Python 发行版，其中收录 N 多个科学包，例如 Python 和 conda 及其依赖项。简单理解为傻瓜的python包。

　　蟒蛇下载地址

　　由于笔者买不起Apple系列电脑，这里以win系统安装为例（Linux必须是图形界面的操作系统，如Ubuntu系统）

　　打开安装程序后，继续单击下一步。

　　安装结束，点击关闭，然后打开命令行CMD，出现下图证明安装成功。

　　安装 Pycharm

　　社区版 & 专业版 Pycharm 下载地址

　　下载后根据自己的情况选择压缩包。

　　在如图所示的位置启动程序。

　　安装 Scrapy

　　pip install scrapy==2.4.0

　　Linux系统环境

　　以腾讯云的 Centos 7.x 版本为例。其他版本的系统略有不同。如果您有任何安装问题，您可以留言。

　　Python3安装

　　'''安装必备包'''

yum groupinstall 'Development Tools'

yum install -y ncurses-libs zlib-devel mysql-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel

yum -y install gcc

'''下载python3.6.5'''

cd /usr/local/

wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tar.xz

'''解压'''

tar -xf Python-3.6.5.tar.xz

mkdir python3

mv Python-3.6.5 python3

cd python3/Python-3.6.5

./configure --prefix=/usr/local/python3 --enable-optimizations

make

make altinstall

'''修改软连接'''

ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3

ln -s /usr/local/python3/bin/pip3.6 /usr/bin/pip3

'''删除软连接,如果设置软连接出错使用'''

rm -rf /usr/bin/python3

rm -rf /usr/bin/pip3

'''检查是否安装版本正确'''

python3 --version

　　安装 Scrapy

　　pip3 install scrapy==2.4.0

　　Scrapy爬虫框架

　　Scrapy，一个用 Python 开发的快速、高级的屏幕抓取和网页抓取框架，用于抓取网站并从页面中提取结构化数据。Scrapy 用途广泛，可用于数据挖掘、监控和自动化测试。

　　它最初是为页面抓取（更准确地说是网页抓取）而设计的，后台也用于获取API或一般网络爬虫返回的数据。

　　要了解学习所有 Scrapy 模块，请点击传送门

　　[scrapy 2.4.0 文章目录]源码分析：所有配置目录索引

　　数据采集流程概览

　　调度器：假设它是一个 URL 的优先队列（爬取网页的网站或链接），让它决定下一个要爬取的 URL，同时去除重复的 URL（不做无用的工作）。用户可以根据自己的需要自定义调度器。

　　下载器（Downloader）：所有组件中最繁重的，它用于在网络上高速下载资源。Scrapy 的下载器代码并不太复杂，但是效率很高。主要原因是Scrapy下载器是建立在twisted的高效异步模型之上的（其实整个框架都是建立在这个模型之上的）。

　　爬虫（Spider）：用户定制自己的爬虫（通过自定义正则表达式等语法），从特定的网页中提取自己需要的信息，即所谓的实体（Item）。用户还可以从中提取链接，让 Scrapy 继续爬取下一页。

　　项目管道：用于处理蜘蛛提取的实体。主要功能是持久化实体，验证实体的有效性，清除不必要的信息。

　　Scrapy引擎（Scrapy Engine）：Scrapy引擎是整个框架的核心。它用于控制调试器、下载器和爬虫。实际上，引擎相当于计算机的CPU，它控制着整个过程。

0

2022-02-18

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)

0 个评论

发起人

AI时代内容工厂

scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)

0 个评论

发起人

相关问题