蜘蛛

优采云发布时间: 2020-08-07 14:52

　　蜘蛛

　　Spider类定义了如何爬网某个（或某些）网站. 包括爬网操作（例如: 是否跟踪链接）以及如何从网页内容（爬网项目）中提取结构化数据. 换句话说，您可以在Spider中定义抓取动作并分析某个网页（或某些网页）.

　　scrapy类. Spider是最基本的类，所有编写的采集器都必须继承该类.

　　使用的主要功能和调用顺序为:

　　__ init __（）: 初始化采集器名称和start_urls列表

　　start_requests（）从url（）调用make_requests_: 向Scrapy生成Requests对象以下载并返回响应

　　parse（）: 解析响应并返回Item或Requests（需要指定回调函数）. 将Item传递到Item pipline以保持持久性，Scrapy下载请求并由指定的回调函数（默认情况下为parse（））处理请求，然后循环继续进行，直到处理完所有数据为止.

　　源代码参考:

　　#所有爬虫的基类，用户定义的爬虫必须从这个类继承

class Spider(object_ref):

#定义spider名字的字符串(string)。spider的名字定义了Scrapy如何定位(并初始化)spider，所以其必须是唯一的。

#name是spider最重要的属性，而且是必须的。

#一般做法是以该网站(domain)(加或不加后缀 )来命名spider。例如，如果spider爬取 mywebsite.com ，该spider通常会被命名为 mywebsite

name = None

#初始化，提取爬虫名字，start_ruls

def __init__(self, name=None, **kwargs):

if name is not None:

self.name = name

# 如果爬虫没有名字，中断后续操作则报错

elif not getattr(self, 'name', None):

raise ValueError("%s must have a name" % type(self).__name__)

# python 对象或类型通过内置成员__dict__来存储成员信息

self.__dict__.update(kwargs)

#URL列表。当没有指定的URL时，spider将从该列表中开始进行爬取。因此，第一个被获取到的页面的URL将是该列表之一。后续的URL将会从获取到的数据中提取。

if not hasattr(self, 'start_urls'):

self.start_urls = []

# 打印Scrapy执行后的log信息

def log(self, message, level=log.DEBUG, **kw):

log.msg(message, spider=self, level=level, **kw)

# 判断对象object的属性是否存在，不存在做断言处理

def set_crawler(self, crawler):

assert not hasattr(self, '_crawler'), "Spider already bounded to %s" % crawler

self._crawler = crawler

@property

def crawler(self):

assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"

return self._crawler

@property

def settings(self):

return self.crawler.settings

#该方法将读取start_urls内的地址，并为每一个地址生成一个Request对象，交给Scrapy下载并返回Response

#该方法仅调用一次

def start_requests(self):

for url in self.start_urls:

yield self.make_requests_from_url(url)

#start_requests()中调用，实际生成Request的函数。

#Request对象默认的回调函数为parse()，提交的方式为get

def make_requests_from_url(self, url):

return Request(url, dont_filter=True)

#默认的Request对象回调函数，处理返回的response。

#生成Item或者Request对象。用户必须实现这个类

def parse(self, response):

raise NotImplementedError

@classmethod

def handles_request(cls, request):

return url_is_from_spider(request.url, cls)

def __str__(self):

return "" % (type(self).__name__, self.name, id(self))

__repr__ = __str__

　　主要属性和方法案例: 腾讯招聘网络自动翻页采集

　　创建一个新的采集器:

　　scrapy genspider tencent "tencent.com"

　　写items.py

　　获取职位，详细信息，

　　class TencentItem(scrapy.Item):

name = scrapy.Field()

detailLink = scrapy.Field()

positionInfo = scrapy.Field()

peopleNumber = scrapy.Field()

workLocation = scrapy.Field()

publishTime = scrapy.Field()

　　写tencent.py

　　# tencent.py

from mySpider.items import TencentItem

import scrapy

import re

class TencentSpider(scrapy.Spider):

name = "tencent"

allowed_domains = ["hr.tencent.com"]

start_urls = [

"http://hr.tencent.com/position.php?&start=0#a"

]

def parse(self, response):

items = response.xpath('//*[contains(@class,"odd") or contains(@class,"even")]')

for item in items:

temp = dict(

name=item.xpath("./td[1]/a/text()").extract()[0],

detailLink="http://hr.tencent.com/"+item.xpath("./td[1]/a/@href").extract()[0],

positionInfo=item.xpath('./td[2]/text()').extract()[0] if len(item.xpath('./td[2]/text()').extract())>0 else None,

peopleNumber=item.xpath('./td[3]/text()').extract()[0],

workLocation=item.xpath('./td[4]/text()').extract()[0],

publishTime=item.xpath('./td[5]/text()').extract()[0]

)

yield temp

now_page = int(re.search(r"\d+", response.url).group(0))

print("*" * 100)

if now_page < 216:

url = re.sub(r"\d+", str(now_page + 10), response.url)

print("this is next page url:", url)

print("*" * 100)

yield scrapy.Request(url, callback=self.parse)

　　编写pipeline.py文件

　　import json

class TencentJsonPipeline(object):

def __init__(self):

#self.file = open('teacher.json', 'wb')

self.file = open('tencent.json', 'wb')

def process_item(self, item, spider):

content = json.dumps(dict(item), ensure_ascii=False) + "\n"

self.file.write(content)

return item

def close_spider(self, spider):

self.file.close()

　　在setting.py中设置ITEM_PIPELINES

　　ITEM_PIPELINES = {

#'mySpider.pipelines.SomePipeline': 300,

"mySpider.pipelines.TencentJsonPipeline":300

}

　　执行采集器:

　　scrapy crawl tencent

　　思考

　　请考虑parse（）方法的工作机制:

　　因为使用收益而不是收益. 解析函数将用作*敏*感*词*. Scrapy将一一获取解析方法中生成的结果，并确定结果的类型. 如果是请求，它将加入爬网队列；如果是项目类型，它将使用管道处理，其他类型将返回错误消息. 当scrapy获取请求的第一部分时，它将不会立即发送请求，而是将请求放入队列中，然后从*敏*感*词*中获取它. 取出请求的第一部分，然后获取项目的第二部分，将其取出. 到达项目后，将其放入相应的管道中进行处理；将parse（）方法作为回调函数（回调）分配给Request，并指定parse（）方法来处理这些请求scrapy.Request（url，callback = self.parse）在安排了Request对象之后，执行scrapy.http.response（）生成的响应对象，并将其发送回parse（）方法，直到调度程序中没有耗尽的Request（递归想法），parse（）工作结束，引擎重新启动执行相应的操作根据队列和管道的内容；在获取每个页面的项目之前，程序将处理请求队列中的所有先前请求，然后提取项目. 所有这些，Scrapy引擎和调度程序将最终负责. 常见错误

　　[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'hr.tencent.com':

　　解决方案:

0

2020-08-07

自动采集编写

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

蜘蛛

0 个评论

发起人