scrapy分页抓取网页(一个分享到此结束框架教程目录及参考网址)
优采云 发布时间: 2022-04-05 05:03scrapy分页抓取网页(一个分享到此结束框架教程目录及参考网址)
Scrapy作为爬虫工具,是一个非常不错的Python爬虫框架,现在支持Python3。具体安装过程可以参考:. srapy的具体介绍可以参考网站:
本文将介绍一个非常简单的例子,帮助读者快速进入scrapy的世界,并会持续更新进一步深入研究。本文scrapy版本为1.0.3-1,python版本为2.7.12.
我们要爬取的页面是菜鸟教程的Git教程目录,如下图:
首先我们在当前目录新建一个scrapy项目:scrapy_git,在终端输入如下命令:
scrapy startproject scrapy_git
输入tree scrapy_git查看文件的树形结构:
然后切换到spider目录,新建文件:git_jc.py,代码如下:
import scrapy
class ToScrapeCSSSpider(scrapy.Spider):
name = "toscrape-css"
start_urls = ['http://www.runoob.com/git/git-tutorial.html',]
def parse(self,response):
with open('/home/vagrant/python.txt', 'w') as f:
for i in range(1,12):
text = response.xpath('//*[@id="leftcolumn"]/a[%d]/text()'%i).extract()[0].encode("utf-8").strip('\n').strip('\t')
f.write(text+'\n')
其中,toscrape-css是爬虫的名字,非常重要。 start_urls 是被抓取网页的 URL。定义parse()函数,将爬取的目录写入/home/vagrant/python.txt。在这段代码中,使用xpath来定位网页元素,当然也可以使用css来定位。
使用xpath定位网页元素的具体方法是:选择需要的元素,右键,选择勾号(N),在弹出的网页源代码中,右键,选择复制,然后选择复制 XPath,然后粘贴即可。
使用scrapy list查看可用爬虫的名称:
最后输入如下命令运行爬虫:(先创建一个python.txt文件)
运行后查看python.txt文件,内容如下:
Bingo,我们的scrapy爬虫运行成功!
在这个爬虫中,我们并没有移动其他文件,只是新建了一个git_jc.py文件,可见scrapy的简单和高效!期待下次分享^_^...
本次分享到此结束,欢迎大家批评交流~~