网页源代码抓取工具(百度首页没有模块的作用及解决办法(二):导入requests模块)
优采云 发布时间: 2022-01-12 20:09网页源代码抓取工具(百度首页没有模块的作用及解决办法(二):导入requests模块)
请求模块:
在做这件事之前,你需要先了解一下,requests 模块是什么?
requests的底层实现是urllib,通过爬虫运行!
在python中,我们需要使用第三方库requests来发送网络请求
所以requests模块的作用就是发送网络请求并返回响应数据
接下来就是下载了:使用:pip install requests -i 命令下载(注:这里下载有问题的可以私聊我,教你如何下载成功!)
具体步骤:
0:导入请求模块
导入请求
1:确定网址
在爬取网页之前,必须要做的是确定要爬取的网页;
我们要的百度web域名是/
保存在变量中
网址='/'
2:发送请求
这一步主要是获取上一步的URL中的数据
我们开始使用 requests 模块中的 get 方法来获取 URL 网页数据并保存在 response 变量中
接下来需要将类型转换为使用文本和内容转换为字符串和字节类型
response=request.get(url) #注意:这里的响应不是数据
print(response) #可以试试用print看看是什么数据
str_data=response.text #转换为字符串类型
bytes_data=response.content #转换为字节类型
#Crawler 爱好者可以尝试打印他们的类型以及变量中的内容是什么?
3:提取数据(略)
有很多方法可以做到这一点,但在这里列出是因为它是重要的一步。
抓取百度主页的时候不需要过滤百度主页的数据,所以就省略了~
想跟我学习的朋友,关注我,一起学习吧!每天加油~
4:保存数据
很明显,保存数据就是把你从网页上抓取的数据保存到你的电脑上。
用 open("baidu_01.html",'w',encoding="UTF-8") as f:
f.write(str_data)
with open("baidu_02.html",'wb') as f:
f.write(bytes_data)
使用 open("filename","identifier"",encoding="UTF-8")) 作为 f:
f.write(需要存入文件的变量名)
可以理解为一种简单的语法格式,放上去就行了。
在标识符中:分为w和wb,分别是string和byte类型。不同的是wb下载保存的网页没有乱码。因为网页是字节类型的。
笔记:
文件操作:使用 open 进行文件操作,建议使用 with 创建运行时环境。您可以在不使用 close() 方法的情况下关闭文件。无论您在文件使用过程中遇到什么问题,都可以安全退出。即使发生错误,您也可以退出运行时环境。可以安全地退出文件并给出错误信息。
with创建临时运行环境的作用:with用于创建临时运行环境,运行环境中的代码执行完毕后自动安全退出环境。
最后给大家一个源码:
导入请求
网址='/'
响应=requests.get(url)
str_data=response.text
bytes_data=response.content
with open("baidu_01.html",'w',encoding="utf-8")as f:
f.write(str_data)
with open("baidu_02.html",'wb') as f:
f.write(bytes_data)
———————————————
版权声明:本文为CSDN博主“Systemer~Fred”的原创文章,遵循CC4.0 BY-SA版权协议。转载请附上原文出处链接和本声明。
原文链接:简单爬虫案例:抓取百度首页(通俗易懂,附源码)-Systemer~Fred的博客-CSDN博客