文章采集软件( 循环访问多页()(图))

优采云 发布时间: 2022-03-26 22:21

  文章采集软件(

循环访问多页()(图))

  

  下载成功

  可以看到图片已经下载成功。

  那么我们的下一个目标是获取批次。批量获取需要获取该页面的所有图片链接。我们可以使用的工具有很多:例如:xpath定位元素、常规工具的所有目标元素等。

  这里我们使用xpath来定位:

  参考etree库:from lxml import etree,然后通过页面分析找出所有产品图片的xpath路径。

  然后让我们编写代码:

  

  导入模块

  

  0318 191212

  写完之后,我们运行一下,看看文件下载成功了。

  

  爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图

  然后我们再看文件夹,可以看到下载的文件都在里面:

  

  爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图

  这样一页上的所有产品图片都被下载下来了。

  如果需要下载多页,只要我们添加循环页数,访问多页,下载即可。

  %E7%94%B5%E5%8A%A8%E5%89%83%E9%A1%BB%E5%88%80&qrst=1&suggest=4.def.0.SAK7%7CMIXTAG_SAK7R%2CSAK7_M_AM_L5384 % 2CSAK7_M_COL_U17678% 2CSAK7_S_AM_R% 2CSAK7_SC_PD_R% 2CSAK7_SM_PB_L16675% 2CSAK7_SS_PM_LC% 7C & wq =% E7% 94% B5% E5% 8A% A8% E5% 89% 83% E9% A1% BB% E5% &% 8 = 库存pvid = bb682c18bcb7479c9b220aab0f42d0a6 & page = 3 & s = 56&click=0

  这是一个多页 URL。我们观察一下,发现有page=3这样的参数。这是翻页的参数。然后我们可以通过将这个参数添加到之前的 URL 来循环浏览多个页面。

  那我们把上面的代码改一下,比如我们需要下载20个页面,

  

  爬虫简介 | 如何使用python编写爬虫爬取京东产品页面的高清主图

  而已。然后我们调用该函数进行迭代下载。

  

  循环下载

  最后得到所有目标页面的产品图片。

  

  下载成功

  结束

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线