php 爬虫抓取网页数据( Python爬虫编写爬虫程序的必备知识-风中蹦迪#)

优采云 发布时间: 2022-03-13 04:02

  php 爬虫抓取网页数据(

Python爬虫编写爬虫程序的必备知识-风中蹦迪#)

  

  随风起舞

  03-08 03:11 阅读 9

  专注于

  【网络爬虫学习】网页的基本构成

  

  爬虫之所以能爬取数据,是因为爬虫可以分析网页,从网页中提取出想要的数据。在学习Python爬虫模块之前,我们有必要先熟悉一下网页的基本结构,这是编写爬虫程序的必备知识。

  关于网络初步教程:

  静态/动态的一个重要区别是是否需要连接后端数据库,

  因为静态网页的内容比较固定,不需要连接后台数据库,响应速度非常快。但是更新静态网页比较麻烦,每次更新都需要重新加载整个网页。

  动态页面利用“动态页面技术”与服务器交换少量数据,从而实现网页的异步加载。我们来看一个具体的例子:

  打开百度图片(Python,当鼠标滚轮滚动时,网页会自动从服务器数据库加载数据并渲染页面,这是动态网页和静态网页最基本的区别。如下图:

  除了 HTML 标记语言之外,动态网页还收录特定功能的代码。这些代码让浏览器和服务端进行交互,服务端会根据客户端的不同请求生成网页,涉及到数据库连接、访问、查询等一系列IO操作,所以响应速度稍差与静态网页相比。

  注意:一般网站通常采用动静结合的方式来达到平衡状态。

  当然,动态网页也可以是纯文本的,页面还可以收录各种*敏*感*词*效果。这些只是网页内容的表现形式。其实无论网页是否有动态效果,只要使用了动态网站技术,那么这个网页就称为动态网页。

  \[质量问题\]

  爬取动态网页的过程比较复杂,需要通过动态抓包获取客户端与服务器交互的JSON数据。抓包时可以使用谷歌浏览器开发者模式(快捷键:F12)Network选项,然后点击XHR找到获取JSON数据的URL,如下图:

  或者您也可以使用专业的数据包捕获工具。动态网页的数据抓取将在后续内容中详细讲解。

  原版的:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线