scrapy分页抓取网页(一个分享到此结束框架教程目录及参考网址)

优采云 发布时间: 2022-04-05 05:03

  scrapy分页抓取网页(一个分享到此结束框架教程目录及参考网址)

  Scrapy作为爬虫工具,是一个非常不错的Python爬虫框架,现在支持Python3。具体安装过程可以参考:. srapy的具体介绍可以参考网站:

  本文将介绍一个非常简单的例子,帮助读者快速进入scrapy的世界,并会持续更新进一步深入研究。本文scrapy版本为1.0.3-1,python版本为2.7.12.

  我们要爬取的页面是菜鸟教程的Git教程目录,如下图:

  

  首先我们在当前目录新建一个scrapy项目:scrapy_git,在终端输入如下命令:

  scrapy startproject scrapy_git

  输入tree scrapy_git查看文件的树形结构:

  

  然后切换到spider目录,新建文件:git_jc.py,代码如下:

  import scrapy

class ToScrapeCSSSpider(scrapy.Spider):

name = "toscrape-css"

start_urls = ['http://www.runoob.com/git/git-tutorial.html',]

def parse(self,response):

with open('/home/vagrant/python.txt', 'w') as f:

for i in range(1,12):

text = response.xpath('//*[@id="leftcolumn"]/a[%d]/text()'%i).extract()[0].encode("utf-8").strip('\n').strip('\t')

f.write(text+'\n')

  其中,toscrape-css是爬虫的名字,非常重要。 start_urls 是被抓取网页的 URL。定义parse()函数,将爬取的目录写入/home/vagrant/python.txt。在这段代码中,使用xpath来定位网页元素,当然也可以使用css来定位。

  使用xpath定位网页元素的具体方法是:选择需要的元素,右键,选择勾号(N),在弹出的网页源代码中,右键,选择复制,然后选择复制 XPath,然后粘贴即可。

  使用scrapy list查看可用爬虫的名称:

  

  最后输入如下命令运行爬虫:(先创建一个python.txt文件)

  运行后查看python.txt文件,内容如下:

  

  Bingo,我们的scrapy爬虫运行成功!

  在这个爬虫中,我们并没有移动其他文件,只是新建了一个git_jc.py文件,可见scrapy的简单和高效!期待下次分享^_^...

  本次分享到此结束,欢迎大家批评交流~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线