爬虫抓取网页数据( 人生苦短,我用Python前文:小白学一个万能的方法(组图) )

优采云 发布时间: 2021-10-11 14:02

  爬虫抓取网页数据(

人生苦短,我用Python前文:小白学一个万能的方法(组图)

)

  小白学习Python爬虫(9):爬虫基础

  

  人生苦短,我用Python

  上一个传送门:

  小白学习Python爬虫(1):开

  小白学习Python爬虫(2):前期准备(一)安装基础类库)

  小白学习Python爬虫(3):前期准备(二)Linux基础)

  小白学习Python爬虫(4):前期准备(三)Docker基础入门)

  小白学习Python爬虫(5):前期准备(四)数据库基础)

  小白学习Python爬虫(6):前期准备(五)爬虫框架安装)

  小白学习Python爬虫(7):HTTP基础

  小白学习Python爬虫(8):网页基础

  爬虫的核心

  什么是爬虫,我们说的通俗一点。爬虫是一种对网页进行爬取,按照一定的规则从中提取信息,并重复上述过程以自动化、重复完成的程序。

  

  对于爬虫来说,首先要爬取一个网页,这里主要是获取网页的源码。网页的源代码中会收录我们需要的信息,而我们要做的就是从源代码中提取这些信息。

  当我们请求一个网页时,Python为我们提供了很多库来做这个,比如官方的urllib,还有第三方的requests,Aiohttp等等。

  我们可以使用这些库来发送 HTTP 请求并获取响应数据。得到响应后,我们只需要解析body部分的数据就可以得到网页的源码。

  获得源代码后,我们接下来的工作就是解析源代码,从中提取出我们需要的数据。

  提取数据最基本也是最常用的方法是使用正则表达式,但是这种方法比较复杂,容易出错,但是不得不说,正则表达式写得很好的人根本不需要下面这些解析库是一种通用的方法。

  悄悄的说,编辑器的正则表达式写得不好,会用到这些第三方提供的库。

  用于提取数据的类库包括 Beautiful Soup、pyquery、lxml 等。使用这些库,我们可以高效快速地从 HTML 中提取网页信息,例如节点属性、文本值等。

  

  从源代码中提取数据后,我们将保存数据。有很多方法可以保存它。可以直接保存为txt、json、Excel文件等,也可以保存到数据库中,如Mysql、Oracle、SQLServer、MongoDB等。

  

  捕获的数据格式

  一般来说,我们抓取的是HTML网页源代码,这是我们可以看到的常规的、直观的网页信息。

  但是,有些信息不会与 HTML 一起直接返回到网页。会有各种API接口。该接口返回的数据目前为JSON格式。还有一些数据格式会返回 XML。有一些独特而美妙的接口可以直接返回程序的自定义字符串。这个API数据接口需要具体问题具体分析。

  还有一些信息,比如各大摄影站和视频站(比如抖音,B站)。我们要抓取的信息是图片或视频。该信息是二进制形式的。我们需要将这些二进制数据爬下来然后转储。

  另外,我们还可以抓取一些资源文件,比如CSS、JavaScript等脚本资源,有的还有一些字体信息,比如woff。这些信息是一个网页不可缺少的元素,只要浏览器能访问到,我们就可以爬下来。

  现代前端页面爬取

  今天是核心内容!!!

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线