蜘蛛
优采云 发布时间: 2020-08-07 14:52蜘蛛
Spider类定义了如何爬网某个(或某些)网站. 包括爬网操作(例如: 是否跟踪链接)以及如何从网页内容(爬网项目)中提取结构化数据. 换句话说,您可以在Spider中定义抓取动作并分析某个网页(或某些网页).
scrapy类. Spider是最基本的类,所有编写的采集器都必须继承该类.
使用的主要功能和调用顺序为:
__ init __(): 初始化采集器名称和start_urls列表
start_requests()从url()调用make_requests_: 向Scrapy生成Requests对象以下载并返回响应
parse(): 解析响应并返回Item或Requests(需要指定回调函数). 将Item传递到Item pipline以保持持久性,Scrapy下载请求并由指定的回调函数(默认情况下为parse())处理请求,然后循环继续进行,直到处理完所有数据为止.
源代码参考:
#所有爬虫的基类,用户定义的爬虫必须从这个类继承
class Spider(object_ref):
#定义spider名字的字符串(string)。spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的。
#name是spider最重要的属性,而且是必须的。
#一般做法是以该网站(domain)(加或不加 后缀 )来命名spider。 例如,如果spider爬取 mywebsite.com ,该spider通常会被命名为 mywebsite
name = None
#初始化,提取爬虫名字,start_ruls
def __init__(self, name=None, **kwargs):
if name is not None:
self.name = name
# 如果爬虫没有名字,中断后续操作则报错
elif not getattr(self, 'name', None):
raise ValueError("%s must have a name" % type(self).__name__)
# python 对象或类型通过内置成员__dict__来存储成员信息
self.__dict__.update(kwargs)
#URL列表。当没有指定的URL时,spider将从该列表中开始进行爬取。 因此,第一个被获取到的页面的URL将是该列表之一。 后续的URL将会从获取到的数据中提取。
if not hasattr(self, 'start_urls'):
self.start_urls = []
# 打印Scrapy执行后的log信息
def log(self, message, level=log.DEBUG, **kw):
log.msg(message, spider=self, level=level, **kw)
# 判断对象object的属性是否存在,不存在做断言处理
def set_crawler(self, crawler):
assert not hasattr(self, '_crawler'), "Spider already bounded to %s" % crawler
self._crawler = crawler
@property
def crawler(self):
assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"
return self._crawler
@property
def settings(self):
return self.crawler.settings
#该方法将读取start_urls内的地址,并为每一个地址生成一个Request对象,交给Scrapy下载并返回Response
#该方法仅调用一次
def start_requests(self):
for url in self.start_urls:
yield self.make_requests_from_url(url)
#start_requests()中调用,实际生成Request的函数。
#Request对象默认的回调函数为parse(),提交的方式为get
def make_requests_from_url(self, url):
return Request(url, dont_filter=True)
#默认的Request对象回调函数,处理返回的response。
#生成Item或者Request对象。用户必须实现这个类
def parse(self, response):
raise NotImplementedError
@classmethod
def handles_request(cls, request):
return url_is_from_spider(request.url, cls)
def __str__(self):
return "" % (type(self).__name__, self.name, id(self))
__repr__ = __str__
主要属性和方法案例: 腾讯招聘网络自动翻页采集
创建一个新的采集器:
scrapy genspider tencent "tencent.com"
写items.py
获取职位,详细信息,
class TencentItem(scrapy.Item):
name = scrapy.Field()
detailLink = scrapy.Field()
positionInfo = scrapy.Field()
peopleNumber = scrapy.Field()
workLocation = scrapy.Field()
publishTime = scrapy.Field()
写tencent.py
# tencent.py
from mySpider.items import TencentItem
import scrapy
import re
class TencentSpider(scrapy.Spider):
name = "tencent"
allowed_domains = ["hr.tencent.com"]
start_urls = [
"http://hr.tencent.com/position.php?&start=0#a"
]
def parse(self, response):
items = response.xpath('//*[contains(@class,"odd") or contains(@class,"even")]')
for item in items:
temp = dict(
name=item.xpath("./td[1]/a/text()").extract()[0],
detailLink="http://hr.tencent.com/"+item.xpath("./td[1]/a/@href").extract()[0],
positionInfo=item.xpath('./td[2]/text()').extract()[0] if len(item.xpath('./td[2]/text()').extract())>0 else None,
peopleNumber=item.xpath('./td[3]/text()').extract()[0],
workLocation=item.xpath('./td[4]/text()').extract()[0],
publishTime=item.xpath('./td[5]/text()').extract()[0]
)
yield temp
now_page = int(re.search(r"\d+", response.url).group(0))
print("*" * 100)
if now_page < 216:
url = re.sub(r"\d+", str(now_page + 10), response.url)
print("this is next page url:", url)
print("*" * 100)
yield scrapy.Request(url, callback=self.parse)
编写pipeline.py文件
import json
class TencentJsonPipeline(object):
def __init__(self):
#self.file = open('teacher.json', 'wb')
self.file = open('tencent.json', 'wb')
def process_item(self, item, spider):
content = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(content)
return item
def close_spider(self, spider):
self.file.close()
在setting.py中设置ITEM_PIPELINES
ITEM_PIPELINES = {
#'mySpider.pipelines.SomePipeline': 300,
"mySpider.pipelines.TencentJsonPipeline":300
}
执行采集器:
scrapy crawl tencent
思考
请考虑parse()方法的工作机制:
因为使用收益而不是收益. 解析函数将用作*敏*感*词*. Scrapy将一一获取解析方法中生成的结果,并确定结果的类型. 如果是请求,它将加入爬网队列;如果是项目类型,它将使用管道处理,其他类型将返回错误消息. 当scrapy获取请求的第一部分时,它将不会立即发送请求,而是将请求放入队列中,然后从*敏*感*词*中获取它. 取出请求的第一部分,然后获取项目的第二部分,将其取出. 到达项目后,将其放入相应的管道中进行处理;将parse()方法作为回调函数(回调)分配给Request,并指定parse()方法来处理这些请求scrapy.Request(url,callback = self.parse)在安排了Request对象之后,执行scrapy.http.response()生成的响应对象,并将其发送回parse()方法,直到调度程序中没有耗尽的Request(递归想法),parse()工作结束,引擎重新启动执行相应的操作根据队列和管道的内容;在获取每个页面的项目之前,程序将处理请求队列中的所有先前请求,然后提取项目. 所有这些,Scrapy引擎和调度程序将最终负责. 常见错误
[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'hr.tencent.com':
解决方案: