网页爬虫抓取百度图片(模拟浏览器打开网页的时候一般操作:打开同类壁纸)

优采云 发布时间: 2022-01-30 18:00

  网页爬虫抓取百度图片(模拟浏览器打开网页的时候一般操作:打开同类壁纸)

  前言

  在设计爬虫项目时,首先要明确手动浏览页面获取图片时脑海中的步骤

  一般来说,我们上网批量打开壁纸时,一般操作如下:

  1、打开壁纸页面

  2、点击壁纸图片(打开指定壁纸的页面)

  3、选择分辨率(我们要下载高分辨率图片)

  4、保存图片

  在实际操作中,我们实现了以下步骤访问网页地址:打开带有壁纸的网页→点击壁纸图片打开指定页面→选择分辨率,点击打开最终保存目标图片网页→保存图片

  在爬取过程中,我们尝试通过模拟浏览器的操作打开网页,一步一步获取并访问该网页,最终获取目标图片的下载地址,下载图片并保存到指定路径

  *在这些中间过程中构建网页的一些特定过滤条件,需要打开指定页面的源代码,观察并找到收录有目的链接的标签

  具体实施事项及注意事项

  这里只是想获取一些指定的图片,所以先在网页上搜索“长门由希”,打开一个搜索结果页面,发现这个页面已经收录了其他同类型的壁纸链接,于是开始设置本次搜索结果页初次访问的目的地址

  目标结果页面截图:

  图中下标为“1/29”。“2/29”是同类型的其他目标壁纸。通过点击这些图片,我们可以打开新的目标下载图片页面

  下面我们来看网页的源代码

  图中黄底的地方就是打开这些类似壁纸的目的地址(访问时需要加前缀“”)

  现在我们可以尝试构建爬虫:

  打开指定页面→过滤获取所有长门由纪壁纸的目标下载页面链接

  代码显示如下:

  获取地址后,我们可以获取地址→打开指定页面→选择分辨率→获取目标下载地址→保存到本地指定路径

  测试时,我输出了上一步保存在truelist中的内容

  

  可以看到保存的只是一个后缀,我们需要在访问的时候加上一个指定的前缀

  实现代码如下(注释见代码):

  终于可以在你的目标文件夹中看到爬下来的那组图片了~

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线