Python从入门到进阶共10本电子书(组图)
优采云 发布时间: 2021-03-25 21:02Python从入门到进阶共10本电子书(组图)
点击上方的“ Python采集器和数据挖掘”以进行跟踪
响应“书籍”,从入门级到高级级别共接收10本Python电子书
今天
天
鸡肉
汤
这盏孤独的灯不省人事,绝望了,她curl缩着窗帘,看着月亮和天空,叹了口气。
/前言/
前一段时间,编辑器与您共享了Xpath和CSS选择器的具体用法。有兴趣的朋友可以戳一下这些文章进行回顾,Scrapy中的Web页面结构介绍和Xpath语法入门教程。如何在Scrapy中使用Xpath选择器从HTML中提取目标信息(两种方式),如何使用CSS选择器在Scrapy中从网页采集详细的教程中提取目标数据(第1部分),如何在CSS中从Scrapy 采集详细数据的教程中提取目标数据(第2部分),如何在Xcrab中使用Xpath选择器通过网页详细教程(第2部分)中的Scrapy 采集目标数据,如何在Scrapy中使用网页详细信息(第1部分)中的Xpath选择,学习选择器的具体用法,这将有助于您可以更好地利用Scrapy采集器框架。在接下来的几篇文章文章中,编辑器将向您介绍抓取工具主文件的特定代码实现过程,并最终实现对网页所有内容的抓取。
在上一阶段中,我们实现了通过Scrapy爬网的特定网页的特定信息,在Scrapy爬网程序框架(上)中演示了元参数的使用,并在示例中实现了元参数的演示。 Scrapy采集器框架(如下),但未实现对所有页面的顺序提取。首先,让我们梳理一下爬行的想法。总体思路是:当获得第一页的URL时,第二页的URL被发送到Scrapy,以便Scrapy自动下载网页信息,然后传递第二页URL继续获取第三页的URL。由于每个页面的网页结构相同,因此以这种方式重复进行迭代可以从整个网页中提取信息。具体的实施过程将通过Scrapy框架实施。具体教程如下。
/实现/
1、首先,URL不再是特定文章的URL,而是所有文章列表的URL。如下图所示,将链接放在start_urls中,如下图所示。
2、接下来,我们需要更改parse()函数,在该函数中,我们需要实现两件事。
一种方法是获取某个页面上文章的所有URL,然后解析它们以获取每篇文章文章中的特定Web内容,另一种方法是获取下一个网页的URL并将其发送下载到Scrapy进行下载,下载完成后将其交给parse()函数。
利用Xpath和CSS选择器的先前知识,获取网页链接的URL相对简单。
3、分析了网页结构并使用了Web交互工具,我们可以很快发现每个网页有20个文章,即20个URL,并且文章列表存在于id =“ archive”中在标签下方,将洋葱去皮以获得所需的URL链接。
4、单击下拉三角形,不难发现文章的详细信息页面上的链接没有被深深隐藏,如下图的圆圈所示。
5、根据标签,我们搜索了图片并添加了选择器工具以获取类似于搜索内容的URL。在cmd中输入如下所示的命令,以进入Shell调试窗口,这将事半功倍。同样,此URL是所有文章的URL,而不是某个文章文章的URL。如果长时间不调试,将不会有结果。
6、根据第四步对网页结构的分析,我们在外壳中编写CSS表达式并将其输出,如下图所示。其中,a :: attr(href)的用法非常聪明,它也是一种提取标签信息的小技术。建议朋友在提取网页信息时经常使用它,非常方便。
到目前为止,已经获得第一页上所有文章列表的URL。提取网址后,如何将其提供给Scrapy进行下载?下载完成后,我们如何调用自己定义的分析函数?