抓取网页数据工具(浏览器打开网页的过程(Inspect爬虫)的那些数据集合 )

优采云 发布时间: 2021-09-28 18:09

  抓取网页数据工具(浏览器打开网页的过程(Inspect爬虫)的那些数据集合

)

  浏览器打开网页的过程就是爬虫获取数据的过程,两者是一样的。浏览器渲染出来的网页是一个丰富多彩的数据集合,爬虫获取网页的源代码html。

  

  有时候,我们在网页的html代码中找不到我们想要的数据,但是浏览器打开的网页却有这些数据。这就是浏览器通过ajax技术异步加载(偷偷下载)这些数据。

  小猴子不禁要问:那我怎么能看到浏览器偷偷下载的数据呢?

  答案是谷歌浏览器的F12快捷键。也可以通过右键菜单“Inspect”打开Chrome自带的开发者工具。开发者工具会出现在浏览器页面的左侧或下方(可调整),如下所示:

  

  让我们简单了解一下它是如何使用的:

  谷歌浏览器抓包:1.菜单顶行

  暂时把剩下的放在一边。

  谷歌浏览器抓包:2.重要区域

  图中红框中的两个按钮比较实用,数字2是清除请求记录;数字3是保留记录,在网页有重定向的时候很有用

  图中绿色区域是加载一个完整的网页,浏览器的所有请求记录,包括URL、状态、类型等,写爬虫的时候一定要在这里寻找线索提金。

  底部编号为 4 的红框表示该网页已加载 181 次。数量如此惊人,让人不禁为浏览器感到惋惜。

  点击请求的URL,右侧会出现一个新窗口,显示请求的信念信息:

  图中左边的红框是点击的请求URL;绿色框是详细信息窗口。

  详情窗口包括 Headers(请求头)、Preview(预览响应)、Response(服务器响应内容)和 Timing(耗时)。

  Preview 和 Response 帮助我们检查请求中是否有爬虫想要的数据;

  headers帮助我们在爬虫中重构http请求,让爬虫可以得到和浏览器一样的数据。

  了解并熟练使用Chrome的开发者工具,小猿们可以流畅的编写自己的爬虫了。

  还有上一篇科普文章,我们进入正题,下一篇我们会讲:

  为什么 Python 适合编写网络爬虫

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线