文章采集软件( 循环访问多页()(图))

优采云发布时间: 2022-03-26 22:21

　　文章采集软件(

循环访问多页()(图))

　　下载成功

　　可以看到图片已经下载成功。

　　那么我们的下一个目标是获取批次。批量获取需要获取该页面的所有图片链接。我们可以使用的工具有很多：例如：xpath定位元素、常规工具的所有目标元素等。

　　这里我们使用xpath来定位：

　　参考etree库：from lxml import etree，然后通过页面分析找出所有产品图片的xpath路径。

　　然后让我们编写代码：

　　导入模块

　　0318 191212

　　写完之后，我们运行一下，看看文件下载成功了。

　　爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图

　　然后我们再看文件夹，可以看到下载的文件都在里面：

　　爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图

　　这样一页上的所有产品图片都被下载下来了。

　　如果需要下载多页，只要我们添加循环页数，访问多页，下载即可。

　　%E7%94%B5%E5%8A%A8%E5%89%83%E9%A1%BB%E5%88%80&qrst=1&suggest=4.def.0.SAK7%7CMIXTAG_SAK7R%2CSAK7_M_AM_L5384 % 2CSAK7_M_COL_U17678% 2CSAK7_S_AM_R% 2CSAK7_SC_PD_R% 2CSAK7_SM_PB_L16675% 2CSAK7_SS_PM_LC% 7C & wq =% E7% 94% B5% E5% 8A% A8% E5% 89% 83% E9% A1% BB% E5% &% 8 = 库存pvid = bb682c18bcb7479c9b220aab0f42d0a6 & page = 3 & s = 56&click=0

　　这是一个多页 URL。我们观察一下，发现有page=3这样的参数。这是翻页的参数。然后我们可以通过将这个参数添加到之前的 URL 来循环浏览多个页面。

　　那我们把上面的代码改一下，比如我们需要下载20个页面，

　　爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图

　　而已。然后我们调用该函数进行迭代下载。

　　循环下载

　　最后得到所有目标页面的产品图片。

　　下载成功

　　结束

0

2022-03-26

文章采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集软件( 循环访问多页()(图))

0 个评论

发起人

AI时代内容工厂

文章采集软件( 循环访问多页()(图))

0 个评论

发起人

相关问题