scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)

优采云 发布时间: 2022-02-18 09:04

  scrapy分页抓取网页(环境搭建window系统环境安装AnacondaAnaconda文章目录解析篇)

  介绍

  开发环境为 Python3.6, Scrapy 版本2.4.x , Gerapy 版本0.9.x , 所有爬虫项目的index目录

  本系列内容作为规范爬虫的指南,为广大爬虫工程师分享爬虫工作经验,用作者自己的经验了解Python3的爬虫工作心得。

  Environment 搭建window系统环境

  安装 Anaconda

  Anaconda 指的是一个开源的 Python 发行版,其中收录 N 多个科学包,例如 Python 和 conda 及其依赖项。简单理解为傻瓜的python包。

  蟒蛇下载地址

  

  由于笔者买不起Apple系列电脑,这里以win系统安装为例(Linux必须是图形界面的操作系统,如Ubuntu系统)

  打开安装程序后,继续单击下一步。

  

  安装结束,点击关闭,然后打开命令行CMD,出现下图证明安装成功。

  

  安装 Pycharm

  社区版 & 专业版 Pycharm 下载地址

  下载后根据自己的情况选择压缩包。

  在如图所示的位置启动程序。

  

  安装 Scrapy

  pip install scrapy==2.4.0

  

  Linux系统环境

  以腾讯云的 Centos 7.x 版本为例。其他版本的系统略有不同。如果您有任何安装问题,您可以留言。

  Python3安装

  '''安装必备包'''

yum groupinstall 'Development Tools'

yum install -y ncurses-libs zlib-devel mysql-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel

yum -y install gcc

'''下载python3.6.5'''

cd /usr/local/

wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tar.xz

'''解压'''

tar -xf Python-3.6.5.tar.xz

mkdir python3

mv Python-3.6.5 python3

cd python3/Python-3.6.5

./configure --prefix=/usr/local/python3 --enable-optimizations

make

make altinstall

'''修改软连接'''

ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3

ln -s /usr/local/python3/bin/pip3.6 /usr/bin/pip3

'''删除软连接,如果设置软连接出错使用'''

rm -rf /usr/bin/python3

rm -rf /usr/bin/pip3

'''检查是否安装版本正确'''

python3 --version

  

  安装 Scrapy

  pip3 install scrapy==2.4.0

  

  Scrapy爬虫框架

  Scrapy,一个用 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站并从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。

  它最初是为页面抓取(更准确地说是网页抓取)而设计的,后台也用于获取API或一般网络爬虫返回的数据。

  要了解学习所有 Scrapy 模块,请点击传送门

  [scrapy 2.4.0 文章目录]源码分析:所有配置目录索引

  数据采集流程概览

  

  调度器:假设它是一个 URL 的优先队列(爬取网页的网站或链接),让它决定下一个要爬取的 URL,同时去除重复的 URL(不做无用的工作)。用户可以根据自己的需要自定义调度器。

  下载器(Downloader):所有组件中最繁重的,它用于在网络上高速下载资源。Scrapy 的下载器代码并不太复杂,但是效率很高。主要原因是Scrapy下载器是建立在twisted的高效异步模型之上的(其实整个框架都是建立在这个模型之上的)。

  爬虫(Spider):用户定制自己的爬虫(通过自定义正则表达式等语法),从特定的网页中提取自己需要的信息,即所谓的实体(Item)。用户还可以从中提取链接,让 Scrapy 继续爬取下一页。

  项目管道:用于处理蜘蛛提取的实体。主要功能是持久化实体,验证实体的有效性,清除不必要的信息。

  Scrapy引擎(Scrapy Engine):Scrapy引擎是整个框架的核心。它用于控制调试器、下载器和爬虫。实际上,引擎相当于计算机的CPU,它控制着整个过程。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线