网页爬虫抓取百度图片(模拟浏览器打开网页的时候一般操作：打开同类壁纸)

优采云发布时间: 2022-01-30 18:00

　　前言

　　在设计爬虫项目时，首先要明确手动浏览页面获取图片时脑海中的步骤

　　一般来说，我们上网批量打开壁纸时，一般操作如下：

　　1、打开壁纸页面

　　2、点击壁纸图片（打开指定壁纸的页面）

　　3、选择分辨率（我们要下载高分辨率图片）

　　4、保存图片

　　在实际操作中，我们实现了以下步骤访问网页地址：打开带有壁纸的网页→点击壁纸图片打开指定页面→选择分辨率，点击打开最终保存目标图片网页→保存图片

　　在爬取过程中，我们尝试通过模拟浏览器的操作打开网页，一步一步获取并访问该网页，最终获取目标图片的下载地址，下载图片并保存到指定路径

　　*在这些中间过程中构建网页的一些特定过滤条件，需要打开指定页面的源代码，观察并找到收录有目的链接的标签

　　具体实施事项及注意事项

　　这里只是想获取一些指定的图片，所以先在网页上搜索“长门由希”，打开一个搜索结果页面，发现这个页面已经收录了其他同类型的壁纸链接，于是开始设置本次搜索结果页初次访问的目的地址

　　目标结果页面截图：

　　图中下标为“1/29”。“2/29”是同类型的其他目标壁纸。通过点击这些图片，我们可以打开新的目标下载图片页面

　　下面我们来看网页的源代码

　　图中黄底的地方就是打开这些类似壁纸的目的地址（访问时需要加前缀“”）

　　现在我们可以尝试构建爬虫：

　　打开指定页面→过滤获取所有长门由纪壁纸的目标下载页面链接

　　代码显示如下：

　　获取地址后，我们可以获取地址→打开指定页面→选择分辨率→获取目标下载地址→保存到本地指定路径

　　测试时，我输出了上一步保存在truelist中的内容

　　可以看到保存的只是一个后缀，我们需要在访问的时候加上一个指定的前缀

　　实现代码如下（注释见代码）：

　　终于可以在你的目标文件夹中看到爬下来的那组图片了~

　　转载于：

0

2022-01-30

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册