php 爬虫抓取网页数据( Python爬虫编写爬虫程序的必备知识-风中蹦迪#)

优采云发布时间: 2022-03-13 04:02

　　php 爬虫抓取网页数据(

Python爬虫编写爬虫程序的必备知识-风中蹦迪#)

　　随风起舞

　　03-08 03:11 阅读 9

　　专注于

　　【网络爬虫学习】网页的基本构成

　　爬虫之所以能爬取数据，是因为爬虫可以分析网页，从网页中提取出想要的数据。在学习Python爬虫模块之前，我们有必要先熟悉一下网页的基本结构，这是编写爬虫程序的必备知识。

　　关于网络初步教程：

　　静态/动态的一个重要区别是是否需要连接后端数据库，

　　因为静态网页的内容比较固定，不需要连接后台数据库，响应速度非常快。但是更新静态网页比较麻烦，每次更新都需要重新加载整个网页。

　　动态页面利用“动态页面技术”与服务器交换少量数据，从而实现网页的异步加载。我们来看一个具体的例子：

　　打开百度图片（Python，当鼠标滚轮滚动时，网页会自动从服务器数据库加载数据并渲染页面，这是动态网页和静态网页最基本的区别。如下图：

　　除了 HTML 标记语言之外，动态网页还收录特定功能的代码。这些代码让浏览器和服务端进行交互，服务端会根据客户端的不同请求生成网页，涉及到数据库连接、访问、查询等一系列IO操作，所以响应速度稍差与静态网页相比。

　　注意：一般网站通常采用动静结合的方式来达到平衡状态。

　　当然，动态网页也可以是纯文本的，页面还可以收录各种*敏*感*词*效果。这些只是网页内容的表现形式。其实无论网页是否有动态效果，只要使用了动态网站技术，那么这个网页就称为动态网页。

　　\[质量问题\]

　　爬取动态网页的过程比较复杂，需要通过动态抓包获取客户端与服务器交互的JSON数据。抓包时可以使用谷歌浏览器开发者模式（快捷键：F12）Network选项，然后点击XHR找到获取JSON数据的URL，如下图：

　　或者您也可以使用专业的数据包捕获工具。动态网页的数据抓取将在后续内容中详细讲解。

　　原版的：

0

2022-03-13

php 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册