推荐文章:如何利用Scrapy爬虫框架抓取网页全部文章信息(上篇)
优采云 发布时间: 2020-11-24 10:18如何使用Scrapy采集器框架来捕获网页上的所有文章信息(第1部分)
/前言/
前一段时间,编辑器与您共享了Xpath和CSS选择器的具体用法。有兴趣的朋友可以戳这些文章进行回顾,Scrapy中的Web页面结构介绍和Xpath语法入门教程。如何在Scrapy中使用Xpath选择器从HTML中提取目标信息(两种方式),如何使用CSS选择器在Scrapy中从网页中提取目标数据采集-详细的教程(第1部分),如何使用CSS在Scrapy中进行选择采集从网页中的目标数据详细的教程(第2部分),如何在Scrapy中使用Xpath选择器采集目标数据详细教程中的目标数据(第2部分),如何在Scrapy中使用Xpath选择从网页采集目标数据详细教程中(第1部分),了解选择器的具体用法,这可以帮助您更好地使用Scrapy采集器框架。在接下来的几篇文章文章中,编辑器将向您介绍抓取工具主文件的特定代码实现过程,并最终实现对网页所有内容的抓取。
在上一阶段中,我们实现了通过Scrapy爬网的特定网页的特定信息,Scrapy爬网程序框架中的元参数使用演示(上)以及在Scrapy爬虫框架中的元参数使用演示。 Scrapy采集器框架(如下),但未实现所有页面的顺序提取。首先,让我们梳理一下爬行的想法。总体思路是:获取第一页的URL后,将第二页的URL发送给Scrapy,让Scrapy自动下载该网页的信息,然后传递第二页URL继续获取该URL。第三页。由于每个页面的网页结构都是相同的,因此以这种方式重复进行迭代可以从整个网页中提取信息。具体的实施过程将通过Scrapy框架实施。具体教程如下。
/实现/
1、首先,URL不再是特定文章的URL,而是所有文章列表的URL。如下图所示,将链接放在start_urls中,如下图所示。
2、接下来,我们需要更改parse()函数,在该函数中,我们需要实现两件事。
一种方法是获取某个页面上文章的所有URL,然后解析它们以获取每篇文章文章中的特定Web内容,另一种方法是获取下一个网页的URL并将其发送下载到Scrapy进行下载,然后在下载完成后将其交给parse()函数。
利用Xpath和CSS选择器的先前知识,获取网页链接的URL相对简单。
3、分析了网页结构并使用了Web交互工具,我们可以很快发现每个网页有20个文章,即20个URL,并且文章列表存在于id =“ archive”中在标签下面,我们将获得我们想要的URL链接,就像剥洋葱一样。
4、单击下拉三角形,不难发现文章的详细信息页面上的链接没有被隐藏,如下面的圆圈所示。
5、根据标签,我们搜索了图片并添加了选择器工具以获取类似于搜索内容的URL。在cmd中输入如下所示的命令,以进入Shell调试窗口,这将事半功倍。同样,此URL是所有文章的URL,而不是某个文章文章的URL。如果长时间调试,将没有结果。
6、根据第四步中对网页结构的分析,我们在外壳中编写CSS表达式并将其输出,如下图所示。其中,a :: attr(href)的用法非常聪明,这也是提取标记信息的小技巧。建议朋友在提取网页信息时经常使用它,非常方便。
到目前为止,已经获得第一页上所有文章列表的URL。提取网址后,如何将其交给Scrapy下载?下载完成后,我们如何调用自己定义的解析函数?