网页源代码抓取工具(百度首页没有模块的作用及解决办法（二）：导入requests模块)

优采云发布时间: 2022-01-12 20:09

　　请求模块：

　　在做这件事之前，你需要先了解一下，requests 模块是什么？

　　requests的底层实现是urllib，通过爬虫运行！

　　在python中，我们需要使用第三方库requests来发送网络请求

　　所以requests模块的作用就是发送网络请求并返回响应数据

　　接下来就是下载了：使用：pip install requests -i 命令下载（注：这里下载有问题的可以私聊我，教你如何下载成功！）

　　具体步骤：

　　0：导入请求模块

　　导入请求

　　1：确定网址

　　在爬取网页之前，必须要做的是确定要爬取的网页；

　　我们要的百度web域名是/

　　保存在变量中

　　网址='/'

　　2：发送请求

　　这一步主要是获取上一步的URL中的数据

　　我们开始使用 requests 模块中的 get 方法来获取 URL 网页数据并保存在 response 变量中

　　接下来需要将类型转换为使用文本和内容转换为字符串和字节类型

　　response=request.get(url) #注意：这里的响应不是数据

　　print(response) #可以试试用print看看是什么数据

　　str_data=response.text #转换为字符串类型

　　bytes_data=response.content #转换为字节类型

　　#Crawler 爱好者可以尝试打印他们的类型以及变量中的内容是什么？

　　3：提取数据（略）

　　有很多方法可以做到这一点，但在这里列出是因为它是重要的一步。

　　抓取百度主页的时候不需要过滤百度主页的数据，所以就省略了~

　　想跟我学习的朋友，关注我，一起学习吧！每天加油~

　　4：保存数据

　　很明显，保存数据就是把你从网页上抓取的数据保存到你的电脑上。

　　用 open("baidu_01.html",'w',encoding="UTF-8") as f:

　　f.write(str_data)

　　with open("baidu_02.html",'wb') as f:

　　f.write(bytes_data)

　　使用 open("filename","identifier"",encoding="UTF-8")) 作为 f：

　　f.write（需要存入文件的变量名）

　　可以理解为一种简单的语法格式，放上去就行了。

　　在标识符中：分为w和wb，分别是string和byte类型。不同的是wb下载保存的网页没有乱码。因为网页是字节类型的。

　　笔记：

　　文件操作：使用 open 进行文件操作，建议使用 with 创建运行时环境。您可以在不使用 close() 方法的情况下关闭文件。无论您在文件使用过程中遇到什么问题，都可以安全退出。即使发生错误，您也可以退出运行时环境。可以安全地退出文件并给出错误信息。

　　with创建临时运行环境的作用：with用于创建临时运行环境，运行环境中的代码执行完毕后自动安全退出环境。

　　最后给大家一个源码：

　　导入请求

　　网址='/'

　　响应=requests.get(url)

　　str_data=response.text

　　bytes_data=response.content

　　with open("baidu_01.html",'w',encoding="utf-8")as f:

　　f.write(str_data)

　　with open("baidu_02.html",'wb') as f:

　　f.write(bytes_data)

　　———————————————

　　原文链接：简单爬虫案例：抓取百度首页（通俗易懂，附源码）-Systemer~Fred的博客-CSDN博客

0

2022-01-12

网页源代码抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页源代码抓取工具(百度首页没有模块的作用及解决办法（二）：导入requests模块)

0 个评论

发起人