网页源代码抓取工具(模拟浏览器打开网页获取网页的基本原理(图))
优采云 发布时间: 2021-09-21 17:19网页源代码抓取工具(模拟浏览器打开网页获取网页的基本原理(图))
基本原则
爬虫的本质是模拟浏览器打开一个网页,获取我们想要的网页中的部分数据。爬虫是一种自动获取网页、提取和保存信息的程序。主要有以下三个步骤:
获取网页:爬虫应该做的第一件事就是获取网页。以下是获取网页的源代码。源代码收录一些有用的网页信息,因此只要您获得源代码,就可以从中提取所需的信息。爬虫首先向服务器网站发送请求,返回的响应主体是网页源代码。Python提供了许多库(比如urllib和请求)来帮助我们实现这个操作。我们可以使用这些库来帮助我们实现HTTP请求操作。请求和响应可以由类库提供的数据结构表示。在得到响应后,只需要解析数据结构的主体部分,即可以得到网页的源代码,这样就可以用程序来实现获取网页的过程
提取信息:获取网页源代码后,下一步是分析网页源代码并提取我们想要的数据。首先,最常用的方法是正则表达式提取,这是一种通用的方法,但它在构造正则表达式时非常复杂且容易出错。此外,由于网页的结构有一定的规则,因此有一些库可以根据网页节点属性、CSS选择器或XPath提取网页信息,如Beauty soup、pyquery、lxml等。使用这些库,我们可以高效、快速地提取网页信息,如节点属性,文本值等等。信息提取是爬虫的重要组成部分。它可以使杂乱的数据组织和清晰,以便我们以后可以处理和分析数据
保存数据:提取信息后,我们通常将提取的数据保存在某个地方以备后续使用。这里有很多节约的方法。例如,它可以简单地保存为TXT文本或JSON文本,也可以保存到数据库(如MySQL和mongodb)或远程服务器(如使用SFTP操作)
你能捕捉到什么数据
我们可以在网页上看到各种各样的信息。最常见的是与HTML代码相对应的常规网页,最常见的捕获是HTML源代码。此外,一些网页可能会返回JSON字符串而不是HTML代码(大多数API接口都采用这种形式)。这种格式的数据便于传输和解析。它们也可以被抓取,数据提取更方便。此外,我们还可以看到各种二进制数据,如图片、视频和音频。使用爬虫,我们可以抓取这些二进制数据并将它们保存到相应的文件名中。此外,您还可以看到具有各种扩展名的文件,例如CSS、JavaScript和配置文件。事实上,这些也是最常见的文件。只要您可以在浏览器中访问它们,就可以抓取它们
JavaScript呈现页面
有时候,当我们抓取一个收录urllib或请求的网页时,我们得到的源代码实际上与我们在浏览器中看到的不同。这是一个非常普遍的问题。如今,越来越多的web页面是通过Ajax和前端模块工具构建的。整个网页可能由JavaScript呈现,也就是说,原创HTML代码是一个空壳,例如:
赫特姆利·霍纳,这是一个德莫西耶
SNLY