scrapy分页抓取网页(我很困难,无法弄清楚为什么我的CrawlSpider无法拾取并处理HTML代码中的相关链接)
优采云 发布时间: 2022-02-03 08:17scrapy分页抓取网页(我很困难,无法弄清楚为什么我的CrawlSpider无法拾取并处理HTML代码中的相关链接)
我很难弄清楚为什么我的 CrawlSpider 无法获取和处理 HTML 代码中的相关链接。 Scrapy 不会抓取 LinkExtractor 允许的页面
这是一个 cawlspider,我可以在命令行上传递一些参数,如下所示:
scrapy crawl domain_spider -a url="" -s ROBOTSTXT_OBEY=0 -s AUTOTHROTTLE_ENABLED=0
蜘蛛运行并且绝对拒绝抓取带有列表分页的页面。 HTML 如下所示:
< Previous 20
如果我在参数中传递 -a allowed="page=" 之类的逗号,那么它会拾取两页,但它仍然拒绝继续。
谁能发现我的代码下面的问题?
我的爬行蜘蛛:
def __init__(self, url=None, category='default', allowed=None, denied=None, single_page=False, **kwargs):
self.category = category
if allowed == '':
allowed = None
if denied == '':
denied = None
if single_page is not False and single_page != '':
denied = '.*'
self.start_urls = ['{}'.format(url)]
self.allowed_domains = [urlparse(url).netloc]
self.domain = urlparse(url).netloc
self.rules = (
Rule(LinkExtractor(allow=allowed, deny=denied, unique=True), callback='parse_page'),
)
super(DomainSpider, self).__init__(**kwargs)
来源
2016-07-01马克·安德森