scrapy分页抓取网页(我很困难，无法弄清楚为什么我的CrawlSpider无法拾取并处理HTML代码中的相关链接)

优采云发布时间: 2022-02-03 08:17

　　我很难弄清楚为什么我的 CrawlSpider 无法获取和处理 HTML 代码中的相关链接。 Scrapy 不会抓取 LinkExtractor 允许的页面

　　这是一个 cawlspider，我可以在命令行上传递一些参数，如下所示：

　　scrapy crawl domain_spider -a url="" -s ROBOTSTXT_OBEY=0 -s AUTOTHROTTLE_ENABLED=0

　　蜘蛛运行并且绝对拒绝抓取带有列表分页的页面。 HTML 如下所示：

　　< Previous 20

　　如果我在参数中传递 -a allowed="page=" 之类的逗号，那么它会拾取两页，但它仍然拒绝继续。

　　谁能发现我的代码下面的问题？

　　我的爬行蜘蛛：

　　def __init__(self, url=None, category='default', allowed=None, denied=None, single_page=False, **kwargs):

self.category = category

if allowed == '':

allowed = None

if denied == '':

denied = None

if single_page is not False and single_page != '':

denied = '.*'

self.start_urls = ['{}'.format(url)]

self.allowed_domains = [urlparse(url).netloc]

self.domain = urlparse(url).netloc

self.rules = (

Rule(LinkExtractor(allow=allowed, deny=denied, unique=True), callback='parse_page'),

)

super(DomainSpider, self).__init__(**kwargs)

　　来源

　　2016-07-01马克·安德森

0

2022-02-03

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册