网页抓取解密(scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则)

优采云 发布时间: 2021-09-19 20:21

  网页抓取解密(scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则)

  在上一卷中,我们抓取了网页的所有内容。现在,我们获取网页的图像名称和连接

  现在,我将创建一个名为crawler2的新爬虫文件

  爬虫朋友应该知道网页中的数据是用文本或块级标记包装的。标签选择器htmlxpathselector是在scratch框架中提供的。请参阅具体的使用规则。我不会介绍它

  我们现在要抓取的内容是网页的图像标题和网页的图像链接,因此我们需要在网站浏览器控制台上查看标记内容属性

  在控制台上,我们发现:

  我们想要获取的内容位于名为showlist的div下的Li标记下

  因此,让我们首先获取下一页的指定Li标记

  

  首先查看打印结果:

  

  内容在哪里?不要惊慌。此选择器打印的结果正常

  修改以下代码以获取Li中的内容,并实现家长查找孩子的过程

  

  这个extract()函数是我通常用来获取标记的函数

  看看结果

  

  一组Li中有许多内容,它们不是一一对应的。这似乎不方便。因此,可以看出网站制作的前端是一个块级元素,它直接将多个图片封装在一个Li中

  如果您感到不舒服,请修改代码。一个里有七个。为了确保数据的准确性,我为每个父Li元素设置了一个数字

  看看代码

  

  结果如下:

  

  即使文本不健康,数据的显示仍然清晰可见

  现在图片已连接,我们可以根据链接下载图片。然后,我们使用urlretrieve函数在当前爬虫的文件夹中创建一个img文件夹,该文件夹与spider文件处于同一级别

  请看以下代码:

  

  事实上,就像一个公式,你可以通过阅读公式+下载公式下载图片:让我们看看结果:

  

  网站me真是难以驾驭。我不会再爬了

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线