推荐文章：如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

优采云发布时间: 2020-11-24 10:18

　　如何使用Scrapy采集器框架来捕获网页上的所有文章信息（第1部分）

　　/前言/

　　前一段时间，编辑器与您共享了Xpath和CSS选择器的具体用法。有兴趣的朋友可以戳这些文章进行回顾，Scrapy中的Web页面结构介绍和Xpath语法入门教程。如何在Scrapy中使用Xpath选择器从HTML中提取目标信息（两种方式），如何使用CSS选择器在Scrapy中从网页中提取目标数据采集-详细的教程（第1部分），如何使用CSS在Scrapy中进行选择采集从网页中的目标数据详细的教程（第2部分），如何在Scrapy中使用Xpath选择器采集目标数据详细教程中的目标数据（第2部分），如何在Scrapy中使用Xpath选择从网页采集目标数据详细教程中（第1部分），了解选择器的具体用法，这可以帮助您更好地使用Scrapy采集器框架。在接下来的几篇文章文章中，编辑器将向您介绍抓取工具主文件的特定代码实现过程，并最终实现对网页所有内容的抓取。

　　在上一阶段中，我们实现了通过Scrapy爬网的特定网页的特定信息，Scrapy爬网程序框架中的元参数使用演示（上）以及在Scrapy爬虫框架中的元参数使用演示。 Scrapy采集器框架（如下），但未实现所有页面的顺序提取。首先，让我们梳理一下爬行的想法。总体思路是：获取第一页的URL后，将第二页的URL发送给Scrapy，让Scrapy自动下载该网页的信息，然后传递第二页URL继续获取该URL。第三页。由于每个页面的网页结构都是相同的，因此以这种方式重复进行迭代可以从整个网页中提取信息。具体的实施过程将通过Scrapy框架实施。具体教程如下。

　　/实现/

　　1、首先，URL不再是特定文章的URL，而是所有文章列表的URL。如下图所示，将链接放在start_urls中，如下图所示。

　　2、接下来，我们需要更改parse（）函数，在该函数中，我们需要实现两件事。

　　一种方法是获取某个页面上文章的所有URL，然后解析它们以获取每篇文章文章中的特定Web内容，另一种方法是获取下一个网页的URL并将其发送下载到Scrapy进行下载，然后在下载完成后将其交给parse（）函数。

　　利用Xpath和CSS选择器的先前知识，获取网页链接的URL相对简单。

　　3、分析了网页结构并使用了Web交互工具，我们可以很快发现每个网页有20个文章，即20个URL，并且文章列表存在于id =“ archive”中在标签下面，我们将获得我们想要的URL链接，就像剥洋葱一样。

　　4、单击下拉三角形，不难发现文章的详细信息页面上的链接没有被隐藏，如下面的圆圈所示。

　　5、根据标签，我们搜索了图片并添加了选择器工具以获取类似于搜索内容的URL。在cmd中输入如下所示的命令，以进入Shell调试窗口，这将事半功倍。同样，此URL是所有文章的URL，而不是某个文章文章的URL。如果长时间调试，将没有结果。

　　6、根据第四步中对网页结构的分析，我们在外壳中编写CSS表达式并将其输出，如下图所示。其中，a :: attr（href）的用法非常聪明，这也是提取标记信息的小技巧。建议朋友在提取网页信息时经常使用它，非常方便。

　　到目前为止，已经获得第一页上所有文章列表的URL。提取网址后，如何将其交给Scrapy下载？下载完成后，我们如何调用自己定义的解析函数？

0

2020-11-24

文章网址采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

推荐文章：如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

0 个评论

发起人

AI时代内容工厂

推荐文章：如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

0 个评论

发起人

相关问题