c爬虫抓取网页数据(简单的写一个爬取网站图片的小爬虫就做好了,看下效果)
优采云 发布时间: 2021-10-05 21:16c爬虫抓取网页数据(简单的写一个爬取网站图片的小爬虫就做好了,看下效果)
本文主要介绍一个简单的Python爬虫程序示例,它可以爬网网站图片并下载它们
首先,当python爬虫爬行数据时,您需要了解工具包请求和漂亮的汤
要求提供中文文件:
美丽的汤中文文档:
第一步:选择我们的目标网站:
二、分析网站并查看网页。我们发现每一张照片都是一张照片
标记,其中SRC属性表示图片地址
3、 创建一个新的Python文件demo.py
四、导入的三个工具库:请求、美化组和urllib
1、安装请求命令:PIP安装请求
2、安装美丽的汤文件->;设置->;项目口译员
搜索BS4(Python 3使用BS4)
安装成功
安装Python 3时默认安装urllib
4、准备就绪:
# 导入三个工具包
import requests
from bs4 import BeautifulSoup
import urllib.request
五、声明函数getImg(),该函数在内部用于处理逻辑,并最终调用函数执行:
1、首先解析网站以获取网站HTML内容。代码如下:
def getImg():
# 解析网站
url = requests.get("https://www.buxiuse.com/?page=2") # 爬取网站url
#获取网站数据
html = url.text
#打印输出网站数据
print(html)
# 调用函数
getImg()
2、从获取的HTML内容中查找IMG标记:以下代码写在上述代码的下面
"""
获取BeautifulSoup对象
html 表示被解析的html格式的内容
html.parser表示解析用的解析器
"""
soup = BeautifulSoup(html,"html.parser")
# 获取所有img标签
girl = soup.find_all('img')
# 打印标签
print(girl)
执行效果:
3、继续解析IMG标记并获取SRC值,即我们最终想要爬网的图像地址:
x = 0
# 获取图片路径
for i in girl:
# 获取src路径
src = i.get('src')
print(src)
执行效果:
4、使用urllib将图片下载到指定文件夹:
x = 0
# 获取图片路径
for i in girl:
# 获取src路径
src = i.get('src')
print(src)
# 下载图片 利用urllib
urllib.request.urlretrieve(src,"./image/%s.jpg" % x)
x += 1
print("正在下载第%d张:" % x)
在这里,我们有一个小爬虫,它可以简单地对图片进行爬网。让我们看看效果:
欢迎学习交流