scrapy分页抓取网页(我很困难,无法弄清楚为什么我的CrawlSpider无法拾取并处理HTML代码中的相关链接)

优采云 发布时间: 2022-02-03 08:17

  scrapy分页抓取网页(我很困难,无法弄清楚为什么我的CrawlSpider无法拾取并处理HTML代码中的相关链接)

  我很难弄清楚为什么我的 CrawlSpider 无法获取和处理 HTML 代码中的相关链接。 Scrapy 不会抓取 LinkExtractor 允许的页面

  这是一个 cawlspider,我可以在命令行上传递一些参数,如下所示:

  scrapy crawl domain_spider -a url="" -s ROBOTSTXT_OBEY=0 -s AUTOTHROTTLE_ENABLED=0

  蜘蛛运行并且绝对拒绝抓取带有列表分页的页面。 HTML 如下所示:

  < Previous 20

  如果我在参数中传递 -a allowed="page=" 之类的逗号,那么它会拾取两页,但它仍然拒绝继续。

  谁能发现我的代码下面的问题?

  我的爬行蜘蛛:

  def __init__(self, url=None, category='default', allowed=None, denied=None, single_page=False, **kwargs):

self.category = category

if allowed == '':

allowed = None

if denied == '':

denied = None

if single_page is not False and single_page != '':

denied = '.*'

self.start_urls = ['{}'.format(url)]

self.allowed_domains = [urlparse(url).netloc]

self.domain = urlparse(url).netloc

self.rules = (

Rule(LinkExtractor(allow=allowed, deny=denied, unique=True), callback='parse_page'),

)

super(DomainSpider, self).__init__(**kwargs)

  来源

  2016-07-01马克·安德森

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线