网页源代码抓取工具(百度首页没有模块的作用及解决办法(二):导入requests模块)

优采云 发布时间: 2022-01-12 20:09

  网页源代码抓取工具(百度首页没有模块的作用及解决办法(二):导入requests模块)

  请求模块:

  在做这件事之前,你需要先了解一下,requests 模块是什么?

  requests的底层实现是urllib,通过爬虫运行!

  在python中,我们需要使用第三方库requests来发送网络请求

  所以requests模块的作用就是发送网络请求并返回响应数据

  接下来就是下载了:使用:pip install requests -i 命令下载(注:这里下载有问题的可以私聊我,教你如何下载成功!)

  具体步骤:

  0:导入请求模块

  导入请求

  1:确定网址

  在爬取网页之前,必须要做的是确定要爬取的网页;

  我们要的百度web域名是/

  保存在变量中

  网址='/'

  2:发送请求

  这一步主要是获取上一步的URL中的数据

  我们开始使用 requests 模块中的 get 方法来获取 URL 网页数据并保存在 response 变量中

  接下来需要将类型转换为使用文本和内容转换为字符串和字节类型

  response=request.get(url) #注意:这里的响应不是数据

  print(response) #可以试试用print看看是什么数据

  str_data=response.text #转换为字符串类型

  bytes_data=response.content #转换为字节类型

  #Crawler 爱好者可以尝试打印他们的类型以及变量中的内容是什么?

  3:提取数据(略)

  有很多方法可以做到这一点,但在这里列出是因为它是重要的一步。

  抓取百度主页的时候不需要过滤百度主页的数据,所以就省略了~

  想跟我学习的朋友,关注我,一起学习吧!每天加油~

  4:保存数据

  很明显,保存数据就是把你从网页上抓取的数据保存到你的电脑上。

  用 open("baidu_01.html",'w',encoding="UTF-8") as f:

  f.write(str_data)

  with open("baidu_02.html",'wb') as f:

  f.write(bytes_data)

  使用 open("filename","identifier"",encoding="UTF-8")) 作为 f:

  f.write(需要存入文件的变量名)

  可以理解为一种简单的语法格式,放上去就行了。

  在标识符中:分为w和wb,分别是string和byte类型。不同的是wb下载保存的网页没有乱码。因为网页是字节类型的。

  笔记:

  文件操作:使用 open 进行文件操作,建议使用 with 创建运行时环境。您可以在不使用 close() 方法的情况下关闭文件。无论您在文件使用过程中遇到什么问题,都可以安全退出。即使发生错误,您也可以退出运行时环境。可以安全地退出文件并给出错误信息。

  with创建临时运行环境的作用:with用于创建临时运行环境,运行环境中的代码执行完毕后自动安全退出环境。

  最后给大家一个源码:

  导入请求

  网址='/'

  响应=requests.get(url)

  str_data=response.text

  bytes_data=response.content

  with open("baidu_01.html",'w',encoding="utf-8")as f:

  f.write(str_data)

  with open("baidu_02.html",'wb') as f:

  f.write(bytes_data)

  ———————————————

  版权声明:本文为CSDN博主“Systemer~Fred”的原创文章,遵循CC4.0 BY-SA版权协议。转载请附上原文出处链接和本声明。

  原文链接:简单爬虫案例:抓取百度首页(通俗易懂,附源码)-Systemer~Fred的博客-CSDN博客

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线