c爬虫抓取网页数据(简单的写一个爬取网站图片的小爬虫就做好了，看下效果)

优采云发布时间: 2021-10-05 21:16

　　本文主要介绍一个简单的Python爬虫程序示例，它可以爬网网站图片并下载它们

　　首先，当python爬虫爬行数据时，您需要了解工具包请求和漂亮的汤

　　要求提供中文文件：

　　美丽的汤中文文档：

　　第一步：选择我们的目标网站：

　　二、分析网站并查看网页。我们发现每一张照片都是一张照片

　　标记，其中SRC属性表示图片地址

　　3、创建一个新的Python文件demo.py

　　四、导入的三个工具库：请求、美化组和urllib

　　1、安装请求命令：PIP安装请求

　　2、安装美丽的汤文件-&gt；设置-&gt；项目口译员

　　搜索BS4（Python 3使用BS4)

　　安装成功

　　安装Python 3时默认安装urllib

　　4、准备就绪：

　　# 导入三个工具包

import requests

from bs4 import BeautifulSoup

import urllib.request

　　五、声明函数getImg（），该函数在内部用于处理逻辑，并最终调用函数执行：

　　1、首先解析网站以获取网站HTML内容。代码如下：

　　def getImg():

# 解析网站

url = requests.get("https://www.buxiuse.com/?page=2") # 爬取网站url

#获取网站数据

html = url.text

#打印输出网站数据

print(html)

# 调用函数

getImg()

　　2、从获取的HTML内容中查找IMG标记：以下代码写在上述代码的下面

　　"""

获取BeautifulSoup对象

html 表示被解析的html格式的内容

html.parser表示解析用的解析器

"""

soup = BeautifulSoup(html,"html.parser")

# 获取所有img标签

girl = soup.find_all('img')

# 打印标签

print(girl)

　　执行效果：

　　3、继续解析IMG标记并获取SRC值，即我们最终想要爬网的图像地址：

　　 x = 0

# 获取图片路径

for i in girl:

# 获取src路径

src = i.get('src')

print(src)

　　执行效果：

　　4、使用urllib将图片下载到指定文件夹：

　　 x = 0

# 获取图片路径

for i in girl:

# 获取src路径

src = i.get('src')

print(src)

# 下载图片利用urllib

urllib.request.urlretrieve(src,"./image/%s.jpg" % x)

x += 1

print("正在下载第%d张：" % x)

　　在这里，我们有一个小爬虫，它可以简单地对图片进行爬网。让我们看看效果：

　　欢迎学习交流

0

2021-10-05

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(简单的写一个爬取网站图片的小爬虫就做好了，看下效果)

0 个评论

发起人

AI时代内容工厂

c爬虫抓取网页数据(简单的写一个爬取网站图片的小爬虫就做好了，看下效果)

0 个评论

发起人

相关问题