scrapy分页抓取网页(Python开发的一个快速,高层次屏幕抓取和web框架框架)
优采云 发布时间: 2022-01-10 06:10scrapy分页抓取网页(Python开发的一个快速,高层次屏幕抓取和web框架框架)
Scrapy简介,以下摘自百度百科,
Scrapy,一个用 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站并从页面中提取结果
Scrapy Pthyon 爬虫框架标志[1]
结构化数据。 Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。
Scrapy 的吸引力在于它是一个任何人都可以根据自己的需要轻松修改的框架。还提供了各种爬虫的基类,如BaseSpider、sitemap爬虫等。最新版本提供了对web2.0爬虫的支持。
1.首先需要在windows下安装python2.7版本,然后配置环境变量,如下图,其中Scripts的路径也放入环境变量中,这样就可以直接在命令行使用我们第二步安装的pip;
2.要安装pip,可以在这个链接下载get-pip.py文件,然后执行python get-pip.py,这样脚本会自动下载setuptools工具;
(pip是python的包管理工具)
3.使用命令 pip install Scrapy 安装 Scrapy。请注意,您可能会在此处遇到解码错误。需要修改Python27文件夹中Lib的mimetypes.py文件,大约第256行,设置默认编码方式。改成gbk,代码如下,注意python代码的缩进。
#default_encoding = sys.getdefaultencoding()
if sys.getdefaultencoding() != "gbk":
reload(sys)
sys.setdefaultencoding("gbk")
default_encoding = sys.getdefaultencoding()
Scrapy框架就是通过以上三步搭建的。
接下来按照Scrapy官网的教程做一个简单的爬虫。
1.首先,进入工作目录,打开命令行,输入如下命令创建一个Scrapy项目;
scrapy startproject tutorial
我创建的时候,电脑命令行报错,ImportError: No module named twisted等,很多包都不见了,所以我去安装了,直接用pip install **就好了。