蜘蛛

优采云 发布时间: 2020-08-07 14:52

  蜘蛛

  Spider类定义了如何爬网某个(或某些)网站. 包括爬网操作(例如: 是否跟踪链接)以及如何从网页内容(爬网项目)中提取结构化数据. 换句话说,您可以在Spider中定义抓取动作并分析某个网页(或某些网页).

  scrapy类. Spider是最基本的类,所有编写的采集器都必须继承该类.

  使用的主要功能和调用顺序为:

  __ init __(): 初始化采集器名称和start_urls列表

  start_requests()从url()调用make_requests_: 向Scrapy生成Requests对象以下载并返回响应

  parse(): 解析响应并返回Item或Requests(需要指定回调函数). 将Item传递到Item pipline以保持持久性,Scrapy下载请求并由指定的回调函数(默认情况下为parse())处理请求,然后循环继续进行,直到处理完所有数据为止.

  源代码参考:

  #所有爬虫的基类,用户定义的爬虫必须从这个类继承

class Spider(object_ref):

#定义spider名字的字符串(string)。spider的名字定义了Scrapy如何定位(并初始化)spider,所以其必须是唯一的。

#name是spider最重要的属性,而且是必须的。

#一般做法是以该网站(domain)(加或不加 后缀 )来命名spider。 例如,如果spider爬取 mywebsite.com ,该spider通常会被命名为 mywebsite

name = None

#初始化,提取爬虫名字,start_ruls

def __init__(self, name=None, **kwargs):

if name is not None:

self.name = name

# 如果爬虫没有名字,中断后续操作则报错

elif not getattr(self, 'name', None):

raise ValueError("%s must have a name" % type(self).__name__)

# python 对象或类型通过内置成员__dict__来存储成员信息

self.__dict__.update(kwargs)

#URL列表。当没有指定的URL时,spider将从该列表中开始进行爬取。 因此,第一个被获取到的页面的URL将是该列表之一。 后续的URL将会从获取到的数据中提取。

if not hasattr(self, 'start_urls'):

self.start_urls = []

# 打印Scrapy执行后的log信息

def log(self, message, level=log.DEBUG, **kw):

log.msg(message, spider=self, level=level, **kw)

# 判断对象object的属性是否存在,不存在做断言处理

def set_crawler(self, crawler):

assert not hasattr(self, '_crawler'), "Spider already bounded to %s" % crawler

self._crawler = crawler

@property

def crawler(self):

assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"

return self._crawler

@property

def settings(self):

return self.crawler.settings

#该方法将读取start_urls内的地址,并为每一个地址生成一个Request对象,交给Scrapy下载并返回Response

#该方法仅调用一次

def start_requests(self):

for url in self.start_urls:

yield self.make_requests_from_url(url)

#start_requests()中调用,实际生成Request的函数。

#Request对象默认的回调函数为parse(),提交的方式为get

def make_requests_from_url(self, url):

return Request(url, dont_filter=True)

#默认的Request对象回调函数,处理返回的response。

#生成Item或者Request对象。用户必须实现这个类

def parse(self, response):

raise NotImplementedError

@classmethod

def handles_request(cls, request):

return url_is_from_spider(request.url, cls)

def __str__(self):

return "" % (type(self).__name__, self.name, id(self))

__repr__ = __str__

  主要属性和方法案例: 腾讯招聘网络自动翻页采集

  创建一个新的采集器:

  scrapy genspider tencent "tencent.com"

  写items.py

  获取职位,详细信息,

  class TencentItem(scrapy.Item):

name = scrapy.Field()

detailLink = scrapy.Field()

positionInfo = scrapy.Field()

peopleNumber = scrapy.Field()

workLocation = scrapy.Field()

publishTime = scrapy.Field()

  写tencent.py

  # tencent.py

from mySpider.items import TencentItem

import scrapy

import re

class TencentSpider(scrapy.Spider):

name = "tencent"

allowed_domains = ["hr.tencent.com"]

start_urls = [

"http://hr.tencent.com/position.php?&start=0#a"

]

def parse(self, response):

items = response.xpath('//*[contains(@class,"odd") or contains(@class,"even")]')

for item in items:

temp = dict(

name=item.xpath("./td[1]/a/text()").extract()[0],

detailLink="http://hr.tencent.com/"+item.xpath("./td[1]/a/@href").extract()[0],

positionInfo=item.xpath('./td[2]/text()').extract()[0] if len(item.xpath('./td[2]/text()').extract())>0 else None,

peopleNumber=item.xpath('./td[3]/text()').extract()[0],

workLocation=item.xpath('./td[4]/text()').extract()[0],

publishTime=item.xpath('./td[5]/text()').extract()[0]

)

yield temp

now_page = int(re.search(r"\d+", response.url).group(0))

print("*" * 100)

if now_page < 216:

url = re.sub(r"\d+", str(now_page + 10), response.url)

print("this is next page url:", url)

print("*" * 100)

yield scrapy.Request(url, callback=self.parse)

  编写pipeline.py文件

  import json

class TencentJsonPipeline(object):

def __init__(self):

#self.file = open('teacher.json', 'wb')

self.file = open('tencent.json', 'wb')

def process_item(self, item, spider):

content = json.dumps(dict(item), ensure_ascii=False) + "\n"

self.file.write(content)

return item

def close_spider(self, spider):

self.file.close()

  在setting.py中设置ITEM_PIPELINES

  ITEM_PIPELINES = {

#'mySpider.pipelines.SomePipeline': 300,

"mySpider.pipelines.TencentJsonPipeline":300

}

  执行采集器:

  scrapy crawl tencent

  思考

  请考虑parse()方法的工作机制:

  因为使用收益而不是收益. 解析函数将用作*敏*感*词*. Scrapy将一一获取解析方法中生成的结果,并确定结果的类型. 如果是请求,它将加入爬网队列;如果是项目类型,它将使用管道处理,其他类型将返回错误消息. 当scrapy获取请求的第一部分时,它将不会立即发送请求,而是将请求放入队列中,然后从*敏*感*词*中获取它. 取出请求的第一部分,然后获取项目的第二部分,将其取出. 到达项目后,将其放入相应的管道中进行处理;将parse()方法作为回调函数(回调)分配给Request,并指定parse()方法来处理这些请求scrapy.Request(url,callback = self.parse)在安排了Request对象之后,执行scrapy.http.response()生成的响应对象,并将其发送回parse()方法,直到调度程序中没有耗尽的Request(递归想法),parse()工作结束,引擎重新启动执行相应的操作根据队列和管道的内容;在获取每个页面的项目之前,程序将处理请求队列中的所有先前请求,然后提取项目. 所有这些,Scrapy引擎和调度程序将最终负责. 常见错误

  [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'hr.tencent.com':

  解决方案:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线