scrapy分页抓取网页(一个分享到此结束框架教程目录及参考网址)

优采云发布时间: 2022-04-05 05:03

　　Scrapy作为爬虫工具，是一个非常不错的Python爬虫框架，现在支持Python3。具体安装过程可以参考：. srapy的具体介绍可以参考网站：

　　本文将介绍一个非常简单的例子，帮助读者快速进入scrapy的世界，并会持续更新进一步深入研究。本文scrapy版本为1.0.3-1，python版本为2.7.12.

　　我们要爬取的页面是菜鸟教程的Git教程目录，如下图：

　　首先我们在当前目录新建一个scrapy项目：scrapy_git，在终端输入如下命令：

　　scrapy startproject scrapy_git

　　输入tree scrapy_git查看文件的树形结构：

　　然后切换到spider目录，新建文件：git_jc.py，代码如下：

　　import scrapy

class ToScrapeCSSSpider(scrapy.Spider):

name = "toscrape-css"

start_urls = ['http://www.runoob.com/git/git-tutorial.html',]

def parse(self,response):

with open('/home/vagrant/python.txt', 'w') as f:

for i in range(1,12):

text = response.xpath('//*[@id="leftcolumn"]/a[%d]/text()'%i).extract()[0].encode("utf-8").strip('\n').strip('\t')

f.write(text+'\n')

　　其中，toscrape-css是爬虫的名字，非常重要。 start_urls 是被抓取网页的 URL。定义parse()函数，将爬取的目录写入/home/vagrant/python.txt。在这段代码中，使用xpath来定位网页元素，当然也可以使用css来定位。

　　使用xpath定位网页元素的具体方法是：选择需要的元素，右键，选择勾号(N)，在弹出的网页源代码中，右键，选择复制，然后选择复制 XPath，然后粘贴即可。

　　使用scrapy list查看可用爬虫的名称：

　　最后输入如下命令运行爬虫：（先创建一个python.txt文件）

　　运行后查看python.txt文件，内容如下：

　　Bingo，我们的scrapy爬虫运行成功！

　　在这个爬虫中，我们并没有移动其他文件，只是新建了一个git_jc.py文件，可见scrapy的简单和高效！期待下次分享^_^...

　　本次分享到此结束，欢迎大家批评交流~~

0

2022-04-05

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册