文章采集软件( 循环访问多页()(图))
优采云 发布时间: 2022-03-26 22:21文章采集软件(
循环访问多页()(图))
下载成功
可以看到图片已经下载成功。
那么我们的下一个目标是获取批次。批量获取需要获取该页面的所有图片链接。我们可以使用的工具有很多:例如:xpath定位元素、常规工具的所有目标元素等。
这里我们使用xpath来定位:
参考etree库:from lxml import etree,然后通过页面分析找出所有产品图片的xpath路径。
然后让我们编写代码:
导入模块
0318 191212
写完之后,我们运行一下,看看文件下载成功了。
爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图
然后我们再看文件夹,可以看到下载的文件都在里面:
爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图
这样一页上的所有产品图片都被下载下来了。
如果需要下载多页,只要我们添加循环页数,访问多页,下载即可。
%E7%94%B5%E5%8A%A8%E5%89%83%E9%A1%BB%E5%88%80&qrst=1&suggest=4.def.0.SAK7%7CMIXTAG_SAK7R%2CSAK7_M_AM_L5384 % 2CSAK7_M_COL_U17678% 2CSAK7_S_AM_R% 2CSAK7_SC_PD_R% 2CSAK7_SM_PB_L16675% 2CSAK7_SS_PM_LC% 7C & wq =% E7% 94% B5% E5% 8A% A8% E5% 89% 83% E9% A1% BB% E5% &% 8 = 库存pvid = bb682c18bcb7479c9b220aab0f42d0a6 & page = 3 & s = 56&click=0
这是一个多页 URL。我们观察一下,发现有page=3这样的参数。这是翻页的参数。然后我们可以通过将这个参数添加到之前的 URL 来循环浏览多个页面。
那我们把上面的代码改一下,比如我们需要下载20个页面,
爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图
而已。然后我们调用该函数进行迭代下载。
循环下载
最后得到所有目标页面的产品图片。
下载成功
结束