网页抓取解密(scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则)

优采云发布时间: 2021-09-19 20:21

　　在上一卷中，我们抓取了网页的所有内容。现在，我们获取网页的图像名称和连接

　　现在，我将创建一个名为crawler2的新爬虫文件

　　爬虫朋友应该知道网页中的数据是用文本或块级标记包装的。标签选择器htmlxpathselector是在scratch框架中提供的。请参阅具体的使用规则。我不会介绍它

　　我们现在要抓取的内容是网页的图像标题和网页的图像链接，因此我们需要在网站浏览器控制台上查看标记内容属性

　　在控制台上，我们发现：

　　我们想要获取的内容位于名为showlist的div下的Li标记下

　　因此，让我们首先获取下一页的指定Li标记

　　首先查看打印结果：

　　内容在哪里？不要惊慌。此选择器打印的结果正常

　　修改以下代码以获取Li中的内容，并实现家长查找孩子的过程

　　这个extract（）函数是我通常用来获取标记的函数

　　看看结果

　　一组Li中有许多内容，它们不是一一对应的。这似乎不方便。因此，可以看出网站制作的前端是一个块级元素，它直接将多个图片封装在一个Li中

　　如果您感到不舒服，请修改代码。一个里有七个。为了确保数据的准确性，我为每个父Li元素设置了一个数字

　　看看代码

　　结果如下：

　　即使文本不健康，数据的显示仍然清晰可见

　　现在图片已连接，我们可以根据链接下载图片。然后，我们使用urlretrieve函数在当前爬虫的文件夹中创建一个img文件夹，该文件夹与spider文件处于同一级别

　　请看以下代码：

　　事实上，就像一个公式，你可以通过阅读公式+下载公式下载图片：让我们看看结果：

　　网站me真是难以驾驭。我不会再爬了

0

2021-09-19

网页抓取解密

0 个评论

要回复文章请先登录或注册