网页抓取解密(scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则)
优采云 发布时间: 2021-09-19 20:21网页抓取解密(scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则)
在上一卷中,我们抓取了网页的所有内容。现在,我们获取网页的图像名称和连接
现在,我将创建一个名为crawler2的新爬虫文件
爬虫朋友应该知道网页中的数据是用文本或块级标记包装的。标签选择器htmlxpathselector是在scratch框架中提供的。请参阅具体的使用规则。我不会介绍它
我们现在要抓取的内容是网页的图像标题和网页的图像链接,因此我们需要在网站浏览器控制台上查看标记内容属性
在控制台上,我们发现:
我们想要获取的内容位于名为showlist的div下的Li标记下
因此,让我们首先获取下一页的指定Li标记
首先查看打印结果:
内容在哪里?不要惊慌。此选择器打印的结果正常
修改以下代码以获取Li中的内容,并实现家长查找孩子的过程
这个extract()函数是我通常用来获取标记的函数
看看结果
一组Li中有许多内容,它们不是一一对应的。这似乎不方便。因此,可以看出网站制作的前端是一个块级元素,它直接将多个图片封装在一个Li中
如果您感到不舒服,请修改代码。一个里有七个。为了确保数据的准确性,我为每个父Li元素设置了一个数字
看看代码
结果如下:
即使文本不健康,数据的显示仍然清晰可见
现在图片已连接,我们可以根据链接下载图片。然后,我们使用urlretrieve函数在当前爬虫的文件夹中创建一个img文件夹,该文件夹与spider文件处于同一级别
请看以下代码:
事实上,就像一个公式,你可以通过阅读公式+下载公式下载图片:让我们看看结果:
网站me真是难以驾驭。我不会再爬了