php 爬虫抓取网页数据( 照Web发展的趋势和发展趋势分析和如何去分析)
优采云 发布时间: 2021-10-09 17:16php 爬虫抓取网页数据(
照Web发展的趋势和发展趋势分析和如何去分析)
有时我们使用requests抓取页面时,得到的结果可能与浏览器中看到的不同:在浏览器中可以看到正常显示的页面数据,但是使用requests获取的结果却看不到。这是因为获取的请求都是原创的 HTML 文档,浏览器中的页面是数据经过 JavaScript 处理后生成的结果。这些数据有很多来源,可以通过 Ajax 加载或收录在 HTML 中。文档中的文档也可能是通过JavaScript和特定算法计算后生成的。
在第一种情况下,数据加载是一种异步加载方法。原创页面最初不会收录一些数据。原创页面加载完成后,会向服务器请求一个接口来获取数据,然后对数据进行处理和呈现。在网页上,这实际上是一个 Ajax 请求。
根据Web发展的趋势,这种形式的页面越来越多。网页的原创 HTML 文档不收录任何数据。数据通过Ajax统一加载后呈现,从而在Web开发中实现前后端分离,减少服务器直接渲染页面带来的压力。
因此,如果遇到这样的页面,可以直接使用requests等库来抓取原创页面,无法获取有效数据。这时候就需要分析网页后端向界面发送的ajax请求。如果可以使用requests来模拟ajax请求,那么就可以成功爬取。
因此,本章的主要目的是了解 Ajax 是什么以及如何分析和捕获 Ajax 请求。